ł 计 # 机 /Af 科 学 从 书 





f} 
os CENGAGE > f 
s> Learning 


计算 机 组 成 原理 


[5E] Sere - HEMEL JYK (Alan Clements) 7% 
a Door, opie 肖 晓 强 PE 





/入 了 
P 
y- l oy s 
Computer Organization and Architecture 
1 ey j A 
f Themes and Variations ~ / 





92000600 


计算 机 组 成 原理 


[ 英 ] 艾 伦 ， 殉 莱 门 深 (Alan Clements) 著 
沈 立 王 苏 峰 肖 晓 强 E 





Computer Organization 
and Architecture 


Themes and Variations 























(9) 机 械 荆 业 出 版 社 


China Machine Press 





图 书 在 版 编目 ( CIP ) 数据 


计算 机 组 成 原理 / (H) 艾 伦 : ESET THR (Alan Clements ) # ; 沈 立 等 译 . 一 北京 : 机 械 工 
业 出 版 社 ，2017.1 

(计算 机 科学 丛书) 

书 名 原文 : Computer Organization and Architecture: Themes and Variations 





ISBN 978-7-111-55807-1 
Lite ILO: @ 沈 … M. 计算 机 组 成 原理 IV. TP301 
中 国 版 本 图 书馆 CIP 数据 核 字 ( 2017 ) 第 011423 号 





本 书 版 权 登记 号 : AF: 01-2014-0330 


Alan Clements, Computer Organization and Architecture: Themes and Variations. 

Copyright © 2014 Cengage Learning. 

Original edition published by Cengage Learning. All Rights reserved. 

China Machine Press is authorized by Cengage Learning to publish and distribute 
exclusively this simplified Chinese edition. This edition is authorized for sale in the People’s 
Republic of China only (excluding Hong Kong, Macao SAR and Taiwan). Unauthorized export of 
this edition is a violation of the Copyright Act. No part of this publication may be reproduced or 
distributed by any means, or stored in a database or retrieval system, without the prior written 
permission of the publisher. 

Cengage Learning Asia Pte. Ltd. 

151 Lorong Chuan, #02-08 New Tech Park, Singapore 556741 

本 书 原版 由 圣 智 学 习 出 版 公司 出 版 。 版 权 所 有 ， 瓷 印 必 究 。 

本 书 中 文 简体 字 翻 译 版 由 圣 智 学 习 出 版 公司 授权 机 械 工 业 出 版 社 独家 出 版 发 行 。 此 版 本 仅 限 在 中 华 
人 民 共 和 国境 内 (不 包括 香港 、 澳 门 特别 行政 区 及 台湾 地 区 ) 销售 。 未 经 授权 的 本 书 出 口 将 被 视 为 违反 
版 权 法 的 行为 。 未 经 出 版 者 预先 书面 许可 ， 不 得 以 任何 方式 复制 或 发 行 本 书 的 任何 部 分 。 

本 书 封面 贴 有 Cengage Learning 防伪 标签 ， 无 标签 者 不 得 销售 。 


本 书 共 分 三 部 分 。 第 一 部 分 从 计算 机 组 成 和 结构 的 有 关 概 念 、 计 算 机 的 发 展 历程 及 存储 程序 计算 机 
开始 讲 起 ， 介 绍 了 计算 机 系统 的 组 成 和 体系 结构 的 基本 概念 ， 然 后 讨论 了 数据 在 计算 机 中 的 表示 方法 和 
运算 方法 。 第 二 部 分 讲解 ISA 的 基本 概念 ， 并 以 ARM 指令 集 为 例 介绍 了 1ISA 设计 时 需要 考虑 的 主要 
间 题 ， 还 介绍 了 另 一 个 经 典 的 RISC 指令 集 MIPS， 然 后 着 重 介绍 了 当前 处 理 器 为 特定 领域 应 用 (比如 
多 媒体 应 用 ) 提供 的 支持 。 第 三 部 分 首先 介绍 了 设计 控制 器 的 两 种 经 典 方法 一 一 微 程序 与 组 合 逻 辑 ， 然 
后 详细 讨论 了 流水 线 技术 、 影 响 流水 线性 能 的 因素 及 一 些 可 行 的 解决 方法 。 

本 书 适 合计 算 机 科学 、 电 子 工程 、 电 子 与 计算 机 工程 及 相关 专业 作为 教学 用 书 ， 也 可 供 相关 技术 人 
员 阅 读 参考 。 


出 版 改行， 机 械 工业 出 版 社 (北京 市 西城 区 百 万 庄 大 街 22 号 ”邮政 编码 100037 ) 


责任 编辑 : 关 敏 责任 校对 : 董 纪 丽 

印 W: 中 国电 影 出 版 社 印 刷 厂 版 ”次 : 2017 年 3 月 第 1 版 第 1 次 印刷 
开 ”本 : 185mmx260mm 1/16 印 aK: 23 

书 =, ISBN 978-7-111-55807-1 定 价 : 79.00 元 





MAB, HARA, MA. MR, HARA MR 
客服 热线 : (010) 88378991 88361066 投稿 热线 : ( 010 ) 88379604 
购书 热线 : (010) 68326294 88379649 68995259 ”读者 信箱 : hzjsj@hzbook.com 


版 权 所 有 ， 侵权 必 究 
封底 无 防伪 标 均 为 盗版 
本 书法 律 顾问 : 北京 大 成 律师 事务 所 ” 韩 光 / SBMA 


| 出 版 者 的 话 


Computer Organization and Architecture: Themes and Variations 


文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 遵 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 88379604 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 ，100037 华章 科技 图 书 出 版 中 心 
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计算 机 组 成 原理 与 系统 结构 是 计算 机 科学 与 技术 及 相关 专业 的 核心 基础 内 容 ， 其 教学 效 
果 对 于 培养 学 生 的 计算 机 系统 能 力 具 有 很 大 的 影响 。 这 两 部 分 涉及 的 内 容 相 互 融合 ， 密 不 
可 分 。 越 来 越 多 的 国内 外 高 校 在 教学 设计 、 教 学 实施 、 教 材 编 写 时 将 这 两 部 分 内 容 结合 在 一 
起 ， 并 取得 了 明显 的 效果 。 

本 书 的 英文 版 《 Computer Organization and Architecture: Themes and Variations 》 不 仅 覆 
盖 了 单机 系统 的 组 成 原理 和 系统 结构 的 各 个 方面 ， 还 包括 计算 机 的 性 能 评价 方法 及 多 发 射 、 
粗 粒 度 并 行 等 内 容 。 作 者 希望 本 书 能 够 适合 电子 工程 (EE)、 电 子 与 计算 机 工程 (ECE)、 计 
算 机 科学 (CS) 等 不 同 专 业 的 教学 需要 。 书 中 围绕 基本 概念 、 指 令 集 体系 结构 、 处 理 器 组 成 
和 能 效 、 存 储 与 外 设 ， 以 及 处 理 右 级 并 行 等 五 个 核心 问题 将 这 些 内 容 有 条 不 类 地 组 织 = 
起 ， 以 便 满足 不 同 专业 的 教学 需要 。 

综合 考虑 国内 高 校 “计算机 组 成 与 结构 ”或 类 似 课 程 的 教学 目标 以 及 我 们 对 本 书 的 定 
位 ， 中 文 纸 质 版 分 成 了 两 本 《计算 机 组 成 原理 》 和 《计算 机 存储 与 外 设 》。 

本 书 即 为 《计算 机 组 成 原理 》 涵盖 原 书 的 前 三 部 分 (中 文 版 《计算 机 组 成 原理 》 第 1 一 6 
章 分 别 对 应 原 书 第 1 章 、 第 2 章 前 8 节 、 第 3 一 5 章 和 第 7 章 )。 

第 一 部 分 主要 介绍 计算 机 系统 的 组 成 、 体 系 结构 的 基本 概念 。 第 1 章 介 绍 了 计算 机 组 成 
和 结构 的 有 关 概 念 、 计 算 机 的 发 展 历程 ， 以 及 存储 程序 计算 机 ， 在 读者 面前 呈现 出 基本 存储 
程序 计算 机 系统 的 形象 。 第 2 章 则 讨论 了 数据 在 计算 机 中 的 表示 方法 和 运算 方法 。 

第 二 部 分 介绍 了 指令 系统 的 概念 和 实例 。 这 部 分 包含 三 章 内 容 。 第 3 章 首 先 介绍 ISA 的 
基本 概念 ， 之 后 以 ARM 指令 集 为 例 介绍 了 ISA 设计 时 需要 考虑 的 主要 问题 ， 如 指令 类 型 、 
寻 址 方式 、 数 据 表示 等 。 第 4 章 介绍 了 MIPS 一 一 另 一 个 经 典 的 RISC 指令 集 ， 以 增加 知识 
的 深度 和 广度 。 第 5 章 着 重 介 绍 了 当前 处 理 器 为 特定 领域 应 用 (比如 多 媒体 应 用 ) 提供 的 支 
持 ， 特 别 是 指令 集 的 支持 。 

第 三 部 分 介绍 了 处 理 器 的 实现 以 及 一 些 影响 处 理 器 性 能 的 因素 。 这 部 分 只 有 一 章 ， 即 第 
6 章 。 它 首先 介绍 了 设计 控制 器 的 两 种 经 典 方法 一 一 微 程序 与 组 合 逻 辑 ， 然 后 讨论 了 流水 线 
技术 、 影 响 流水 线性 能 的 因素 及 一 些 可 行 的 解决 方法 。 

《计算 机 存储 与 外 设 》 涵 盖 原 书 的 第 四 部 分 (中 文 版 《计算 机 存储 与 外 设 》 第 1 一 4 章 
分 别 对 应 原 书 的 第 9 一 12 章 )， 介 绍 了 计算 机 系统 中 的 存储 器 、 总 线 、 输 入 /输出 等 内 容 。 
第 1 章 介 绍 了 Cache 的 组 织 和 工作 原理 ， 以 及 虚 存 技术 。 第 2 ~ 3 章 涵盖 了 从 静态 半导体 存 
储 器 到 磁盘 和 光 存 储 的 各 种 存储 技术 。 第 4 章 介 绍 了 LO 的 基本 工作 原理 以 及 总 线 系统 ， 并 
描述 了 一 些 支 持 多 媒体 系统 的 现代 高 速 接口 。 

中 文 纸 质 版 没有 收录 原 书 中 的 门 和 数字 逻辑 、 性 能 评价 、 多 发 射 处 理 器 、 处 理 器 级 并 行 
等 内 容 ( 即 原 书 2.9 ~ 2.11 节 和 第 6、8、13 章 )， 因 为 这 些 内 容 一 般 会 在 “数字 逻辑 ”计算 
机 体系 结构 ”“ 计 算 机 系统 性 能 评价 ”等 课程 中 专门 介绍 。 有 兴趣 的 读者 可 以 在 中 文 版 出 版 


社 网 站 Chttp://www.hzbook.com) 上 找到 相关 章节 的 中 文 译文 。 

本 书 内 容 较 多 ， 翻 译 时 间 紧 迫 ， 尽 管 我 们 尽量 做 到 认真 仔细 ， 但 还 是 难免 会 出 现 错误 和 
不 尽 如 人 意 的 地 方 。 在 此 欢迎 广大 读者 批评 指正 ， 我 们 也 会 及 时 在 网 上 更 新 勘误 表 ， 便 于 大 
家 阅读 。 


2016 年 12 月 于 长 沙 
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21 世纪 是 科学 和 技术 奇迹 频 出 的 时 代 。 计 算 机 已 经 做 到 了 人 们 期 望 它 做 到 的 一 切 一 一 其 
至 更 多 。 生 物 工程 解 开 了 细胞 的 秘密 ， 使 科学 家 能 够 合成 10 年 前 无 法 想象 的 新 药 。 纳 米 技 
术 让 人 们 有 机 会 宇 探 微观 世界 ， 将 计算 机 革命 与 原子 工程 结合 在 一 起 创造 出 的 纳米 机 器 人 ， 
也 许 有 一 天 能 够 植 人 人 体 ， 修 复 人 体内 部 的 创伤 。 普 适 计 算 带 来 了 手机 、MP3 播放 器 和 数码 
相机 ， 使 人 们 彼此 之 间 能 够 通过 Internet 保持 联系 。 计 算 机 是 几乎 所 有 现代 技术 的 核心 。 本 
书 将 阐述 计算 机 是 如 何 工作 的 。 

从 20 世纪 50 年 代 起 大 学 就 开始 教授 这 门 被 称 为 计算 的 学 科 了 。 一 开始 ， 大 型 机 主导 了 
计算 ,这 个 学 科 包 括 对 计算 机 本 身 、 控 制 计算 机 的 操作 系统 、 语 言 和 它们 的 编译 器 、 数 据 库 
以 及 商业 计算 等 的 研究 。 此 后 ,计算 的 发 展 旦 指数 增长 ， 到 现在 已 包含 多 个 不 同 的 领域 , 任 
何 一 所 大 学 都 不 可 能 完全 覆盖 这 些 领 域 。 人 们 不 得 不 将 注意 力 集中 在 计算 的 基本 要 素 上 。 这 
一 学 科 的 核心 在 于 机 器 本 身 : 计算 机 。 当 然 ， 作 为 一 个 理论 概念 ， 计 算 可 以 脱离 计算 机 而 独 
立 存在 。 实 际 上 ， 在 20 世纪 三 四 十 年 代 计算 机 革命 开始 之 前 ， 人 们 已 经 进行 了 相当 多 的 关 
于 计算 机 的 科学 理论 基础 的 研究 工作 。 然 而 ， 计 算 在 过 去 40 年 里 的 发 展 方式 与 微 处 理 器 的 
崛起 紧密 联系 在 一 起 。 如 果 人 们 无 法 拥有 价格 非常 便宜 的 计算 机 ，Internet 也 无 法 按照 它 已 
有 的 轨迹 取得 成 功 。 

由 于 计算 机 本 身 对 计算 的 发 展 及 其 发 展 方向 产生 了 巨大 影响 ， 在 计算 的 课程 体系 中 包含 
一 门 有 关 计 算 机 如 何 工作 的 课程 是 非常 合理 的 。 大 学 里 计算 机 科学 或 计算 机 工程 方向 的 培养 
方案 中 都 会 有 这 样 一 门 课程 。 实 际 上 ， 专 业 和 课程 的 认证 机 构 都 将 计算 机 体系 结构 作为 一 项 
核心 要 求 。 比 如 ， 计 算 机 体系 结构 就 是 EEE 计算 机 协会 和 ACM 联合 发 布 的 计算 学 科 课 程 
体系 的 中 心 内 容 。 

介绍 计算 机 具体 体现 与 实现 的 课程 有 各 种 各 样 的 名 字 。 有 人 将 它们 叫 作 硬件 课 ， 有 人 管 
它们 叫 作 计算 机 体系 结构 ， 还 有 人 把 它们 叫 作 计 算 机 组 成 (以 及 它们 之 间 的 各 种 组 合 )。 本 
书 用 计算 机 体系 结构 表示 这 门 研究 计算 机 设计 方法 和 运行 方式 的 课程 。 当 然 ， 我 会 解释 为 什 
么 这 门 课程 有 那么 多 不 同 的 名 字 ， 并 会 指出 可 以 用 不 同 的 方式 来 看 待 计算 机 。 

与 计算 机 科学 的 所 有 领域 一 样 ， 计 算 机 体系 结构 也 随 着 指令 集 设 计 、 指 令 级 并 行 OLP), 
Cache 缓存 技术 、 总 线 系统 、 猜 测 执行 、 多 核 计算 等 技术 的 发 展 而 飞速 进步 。 本 书 将 讨论 所 
有 这 些 话题 。 

计算 机 体系 结构 是 计算 机 科学 的 基石 。 例 如 ,计算机 性 能 在 今天 的 重要 性 超过 了 以 往 
任何 时 候 ， 为 了 做 出 最 佳 选择 ， 即 便 是 那些 购买 个 人 电脑 的 用 户 也 必须 了 解 计算 机 系统 的 
结构 。 

尽管 绝 大 多 数学 生 永远 不 会 设计 一 台新 的 计算 机 ， 但 今天 的 学 生 却 需要 比 他 们 的 前 辈 更 
全 面 地 了 解 计算 机 。 虽 然 学 生 们 不 必 是 合格 的 汇编 语言 程序 员 ， 但 他 们 一 定 要 理解 总 线 、 接 
O. Cache 和 指令 系统 是 如 何 决定 计算 机 系统 的 性 能 的 。 


VII 


而 且 ， 理 解 计算 机 体系 结构 会 使 学 生 能 够 更 好 地 学 习 计 算 机 科学 的 其 他 领域 。 例 如 ， 指 
令 系 统 的 知识 就 能 使 学 生 更 好 地 理解 编译 器 的 运行 机 制 。 

写作 这 本 书 的 动机 源 于 我 在 提 赛 德 大 学 ( University of Teesside) 讲授 计算 机 体系 结构 中 
级 课程 的 经 历 。 我 没有 按照 传统 方式 授课 ， 而 是 讲授 了 那些 能 够 最 好 地 体现 计算 机 体系 结构 
伟大 思想 的 内 容 。 在 这 门 课 程 里 ， 我 讲授 了 一 些 强调 计算 机 科学 整体 概念 的 主题 ， 对 学 生 
的 操作 系统 和 C 语言 课程 均 有 不 小 的 帮助 。 这 门 课 非常 成 功 ， 特 别 是 在 激发 学 生 的 学 习 动 
力 方面 。 

任何 编写 计算 机 体系 结构 教材 的 人 必须 知道 这 门 课 会 在 3 个 不 同 的 系 讲授 : 电子 工程 
(EE)， 电 子 与 计算 机 工程 (ECE)， 计 算 机 科学 (CS)。 这 些 系 有 自己 的 文化 ， 也 会 从 各 自 的 
角度 看 待 计算 机 体系 结构 。 电 子 工程 系 和 电子 与 计算 机 工程 系 会 关注 电子 学 以 及 计算 机 的 每 
个 部 件 是 如 何 工 作 的 。 面 向 这 两 个 系 的 教材 会 将 重点 放 在 门 、 接 口 、 信 号 和 计算 机 组 成 上 。 
而 计算 机 科学 系 的 学 生 大 都 没有 足够 的 电子 学 知识 背景 ， 因 此 很 难 对 那些 强调 电路 设计 的 教 
材 感 兴趣 。 实 际 上 ， 计 算 机 科学 系 更 强调 底层 的 处 理 器 体系 结构 与 高 层 的 计算 机 科学 抽象 之 
间 的 关系 。 

尽管 要 写 出 一 本 能 够 同时 满足 电子 工程 系 、 电 子 与 计算 机 工程 系 和 计算 机 科学 系 的 教材 
几乎 是 不 可 能 的 ， 但 本 书 进 行 了 有 效 的 折 中 ， 它 为 电子 工程 系 和 电子 与 计算 机 工程 系 提 供 
了 足够 的 门 级 和 部 件 级 的 知识 ， 而 这 些 内 容 也 没有 高 深 到 使 计算 机 科学 系 的 学 生 望 而 却步 的 
程度 。 

本 科 计 算 机 体系 结构 课 可 在 三 个 不 同 层次 上 讲授 : 介绍 性 的 、 中 级 的 和 高 级 的 。 有 些 学 
校 会 讲授 全 部 三 个 层次 的 内 容 ， 有 些 学 校 则 将 这 些 内 容 压 缩 为 两 个 层次 ， 还 有 一 些 学 校 只 进 
行 介 绍 。 本 书面 向 那些 学 习 第 一 层次 和 第 二 层次 计算 机 体系 结构 课 的 学 生 ， 以 及 那些 希望 
解 微 处 理 器 体系 结构 当前 进展 的 职业 工程 师 。 学 习 本 书 的 唯一 前 提 条 件 是 读者 应 了 解 高 级 语 
言 (如 C) 的 基本 原理 和 基本 的 代数 知识 。 

由 于 本 书 履 盖 了 计算 机 体系 结构 的 基础 内 容 、 核 心 知识 以 及 高 级 主题 ， 内 容 丰 富 ， 篇 幅 
很 大 ， 适 用 于 计算 机 体系 结构 相关 的 不 同 课程 裁剪 使 用 。 综 合 考虑 国内 高 校 计 算 机 组 成 与 结 
构 系 列 课程 的 教学 目标 和 课程 设置 ， 中 文 版 分 成 了 两 本 《计算 机 组 成 原理 》 和 《计算 机 存储 
与 外 设 》。 原 书 中 关于 门 和 数字 远 辑 、 性 能 评价 、 多 发 射 处 理 器 、 处 理 器 级 并 行 的 内 容 ， 可 
在 中 文 版 出 版 社 网 站 (http://www.hzbook.com) 下 载 。 一 一 编辑 注 


本 书 特色 


为 什么 还 要 编写 一 本 计算 机 体系 结构 教材 ? 计算 机 体系 结构 是 一 个 很 有 吸引 力 的 话题 ， 
它 会 介绍 如 何 使 用 大 量 与 非 门 那样 的 基本 元 件 搭 建 一 台 计算 机 ， 也 会 介绍 如 何 用 常识 来 解决 
技术 问题 。 例 如 ， 提 升 处 理 器 速度 的 Cache 在 概念 上 并 不 比 信封 背面 的 记录 复杂 多 少 。 同 样 
地 ， 所 有 处 理 器 都 使 用 了 福特 所 发 明 的 汽车 制造 技术 : 流水 线 或 生产 线 。 作 者 努力 使 本 书 的 
内 容 更 加 有 趣 或 覆盖 更 多 的 主题 ， 例 如 本 书 将 介绍 一 些 通过 将 氧 原 子 从 晶体 的 一 端 移 到 另 一 
端 来 工作 的 存储 设备 。 

用 “ 它 不 是 什么 ”来 描述 一 个 对 象 通常 比 用 “ 它 是 什么 ”来 描述 更 容易 一 些 。 本 书 并 不 
关心 微 处 理 器 系统 设计 、 接 口 和 外 设 的 工程 细节 ， 当 然 也 不 会 是 一 本 汇编 语言 的 入门 教材 


Vill 


本 书 的 主题 是 微 处 理 器 体系 结构 而 不 是 微 处 理 器 系统 设计 ,就 目前 而 言 ， 计 算 机 体系 结构 被 
定义 为 机 器 语言 程序 员 所 看 到 的 计算 机 视图 。 这 就 是 说 ,计算 机 体系 结构 并 不 关注 计算 机 的 
实际 硬件 或 实现 ， 而 仅 关注 它 能 做 什么 。 我 们 也 不 会 考虑 微 处 理 器 的 一 些 硬件 和 接口 特征 ， 
除非 它们 对 体系 结构 有 明显 的 作用 (例如 Cache、 存 储 管理 和 总 线 )。 


目标 体系 结构 


任何 体系 结构 教材 的 作者 都 会 选 定 一 个 目标 体系 结构 ， 作 为 讲授 计算 机 设计 和 汇编 语言 
程序 设计 基础 知识 的 平台 。 教 师 们 通常 会 热烈 讨论 究竟 是 用 一 款 真 正 的 商用 处 理 器 还 是 用 一 
个 假想 的 抽象 处 理 器 来 讲授 一 门 课 。 抽 象 处 理 器 容易 理解 ， 学 习 曲 线 也 比较 浅 ， 而 且 学 生 们 
通常 会 觉得 理解 一 个 真实 处 理 器 的 细节 知识 很 不 值得 。 但 另 一 个 方面 ， 实 践 工程 都 要 适应 真 
实 志 界 中 的 各 种 约束 。 而 且 ， 一 台 真 正 的 机 器 会 告诉 学 生 ， 工 程 师 们 为 了 制造 出 商用 产品 所 
必须 做 出 的 设计 选择 。 

在 20 世纪 七 八 十 年 代 ，DEC 公司 的 PDP-11 小 型 计算 机 被 广泛 地 用 作 教 学 平台 。 随 着 
摩托 罗拉 68K 等 16 位 微 处 理 器 的 出 现 ，PDP-11 逐渐 退出 了 课程 教学 。 按 照 学 术 界 的 观点 ， 
68K (大 致 以 早期 的 PDP-11 为 基础 ) 是 一 台 理 想 的 机 器 ， 因 为 它 的 结构 相对 规整 ， 学 生 也 很 
容易 用 68K 汇编 语言 编程 。 也 许 旁 观 者 会 希望 使 用 绝 大 多 数 个 人 电脑 都 使 用 的 、 随 处 可 见 
的 Intel IA32 系列 处 理 器 ， 让 它 在 计算 机 体系 结构 教学 中 发 挥 重 要 作用 ， 毕 竟 很 多 学 生 都 有 
Intel 处 理 器 的 亲身 使 用 经 验 。 但 80x86 系列 处 理 器 从 未 在 学 术 界 真正 流行 起 来 ， 因 为 每 当 一 
款 新 处 理 器 发 布 ， 其 复杂 的 结构 都 会 以 某 种 特定 方式 变化 ， 这 给 学 生 带 来 了 沉重 的 负担 。 一 
些 教师 采用 高 性 能 RISC 处 理 器 教学 ， 比 如 MIPS， 这 种 处 理 器 功能 强大 也 容易 理解 。 但 这 
种 高 端 RISC 处 理 器 多 用 于 工作 站 ， 大 多 数学 生 对 其 不 甚 了 解 (老师 们 观察 到 ， 由 于 熟悉 个 
人 电脑 ， 学 生 们 通常 更 需要 基于 个 人 电脑 的 技术 )。 不 过 现在 ，RISC 处 理 器 既 用 于 高 性 能 计 
算 机 ， 也 用 于 绝 大 多 数 手机 之 中 。 l 

我 选择 ARM 处 理 器 作为 介绍 汇编 语言 和 计算 机 组 成 的 平台 。 这 是 一 款 性 能 高 、 结 构 优 
雅 、 易 于 学 习 的 处 理 器 。 而 且 ARM 处 理 器 有 很 多 开发 工具 ， 这 意味 着 学 生 们 可 以 写 好 ARM 
汇编 语言 源 程序 ， 并 在 实验 室 或 家 里 的 个 人 电脑 上 运行 这 些 程序 。 

采用 Intel IA-64 结构 的 Itanium 处 理 器 是 现代 教材 中 目标 体系 结构 的 一 个 有 力 候选 。 
这 是 一 款 功 能 极其 强大 但 又 极其 复杂 的 处 理 器 ， 不 过 它 的 基本 结构 却 比 80x86 系列 简单 。 
Itanium 体系 结构 上 大 量 创新 性 的 特征 验证 了 计算 机 体系 结构 课程 中 的 许多 概念 一 一 从 数据 
栈 到 猜测 执行 ， 从 流水 线 到 指令 级 并 行 。 因 此 ， 本 书 将 在 高 性 能 计算 部 分 介绍 这 种 处 理 器 
的 一 些 特点 。 

本 书 并 不 是 一 部 传统 的 计算 机 体系 结构 教材 。 它 超出 了 传统 课程 的 范畴 ， 涵 盖 了 许多 有 
趣 、 重 要 且 相 关 的 内 容 。 作 者 的 一 个 重要 目标 是 提供 适合 学 生 吸 收 的 知识 。 很 多 时 候 ， 学 生 
大 学 毕业 后 会 发 现 他 们 的 知识 体系 中 有 令 人 难堪 的 巨大 空白 。 据 我 了 解 ， 目 前 还 没有 一 本 教 
材 采 用 这 种 方法 。 例 如 ， 所 有 计算 机 体系 结构 教材 都 会 介绍 浮 点 运算 ， 但 却 很 少 会 讨论 用 于 
存储 大 量 文本 和 视频 信息 的 数据 压缩 的 代码 ， 更 不 会 介绍 MP3 数据 压缩 这 项 工业 界 的 核心 
技术 。 类 似 地 ,计算 机 体系 结构 教材 很 少 覆 盖 面 向 多 媒体 应 用 的 体系 结构 支撑 等 内 容 。 下 面 


O 这 部 分 内 容 的 电子 版 可 在 中 文 版 出 版 社 网 站 (http://www.hzbook.com) k F$. 一 一 编辑 注 


列 出 了 本 教材 的 一 些 特 色 内 容 。 
历史 


有 关 计 算 机 体系 结构 的 书籍 通常 会 有 一 部 分 内 容 介 绍 计算 机 的 发 展 历 史 。 这 些 历史 通常 
是 不 精确 的 ， 并 会 受到 这 一 领域 专家 的 批评 。 不 过 ， 我 认为 介绍 历史 的 章节 非常 重要 ， 因 为 
有 关 计 算 机 历史 的 知识 会 帮助 学 生理 解 计算 机 是 如 何 发 展 的 以 及 为 何 会 这 样 发 展 。 知 道 了 计 
算 机 从 哪里 来 ， 学 生 就 能 更 好 地 理解 它们 在 未 来 有 可 能 怎样 发 展 。 在 这 本 教材 里 ， 笔 者 给 出 
了 一 段 计 算 发 展 的 简 史 ， 而 与 本 书 英文 版 配套 的 网 络 补充 材料 中 则 给 出 了 更 多 的 历史 背景 。 


对 操作 系统 的 支持 


操作 系统 与 计算 机 体系 结构 密切 地 关联 在 一 起 。 本 书 涵盖 的 体系 结构 内 容 (例如 存储 管 
理 、 上 下 文 切换 、 保 护 机 制 等 )， 即 使 是 那些 对 操作 系统 进行 研究 的 研究 者 ， 也 会 感 兴趣 。 


对 多 媒体 的 支持 


现代 计算 机 体系 结构 背后 最 重要 的 驱动 力 是 多 媒体 系统 的 发 展 及 其 对 高 性 能 和 高 带宽 的 
无 尽 需求 。 本 书 介绍 了 如 何 面向 多 媒体 应 用 优化 现代 体系 结构 。 读 者 可 以 了 解 多 媒体 应 用 对 
计算 机 体系 结构 及 对 总 线 、 计 算 机 外 设 设 计 的 影响 ， 例 如 面向 视听 应 用 的 硬盘 。 


输入 / 输出 系统 ” 


今天 的 计算 机 不 仅 比 它们 的 前 身 快 得 多 ， 还 提供 了 更 多 、 更 复杂 的 将 信息 输入 计算 机 和 
从 计算 机 中 取出 的 手段 。 如 果 计 算 机 仅 与 键盘 、 调 制 解 调 器 和 打印 机 连接 ，JIO 的 重要 性 几 
乎 可 以 忽略 。 现 在 的 计算 机 经 常 与 数字 摄像 机 连接 ， 需 要 传输 大 量 数据 。 读 者 将 会 看 到 一 些 
现代 的 高 性 能 IO 系统 ， 例 如 USB 和 FireWire 接口 ， 还 会 更 深入 地 探究 一 些 与 输入 /输出 相 
关 的 内 容 ， 如 握手 机 制 和 缓冲 机 制 。 


计算 机 存储 系统 ” 


存储 系统 是 计算 机 世界 里 的 灰 姑 娘 。 没 有 高 密度 、 高 性 能 的 存储 系统 ， 就 不 会 有 价格 便 
宜 的 桌面 系统 ， 更 不 会 有 32GB 存储 容量 的 数码 相机 。 本 书 将 存储 系统 分 为 两 章 : 前 一 章 介 
绍 半导体 存储 器 ， 后 一 章 介 绍 磁 和 光 存 储 器 。 读 者 还 会 看 到 一 些 有 趣 的 、 正 在 兴起 的 存储 技 
术 ， 如 相 变 存 储 器 和 铁 电 存 储 器 。 


方法 
我 之 所 以 欣赏 一 本 书 ， 是 因为 它 能 够 展现 作者 的 风格 与 观点 ， 和 希望 本 书 也 是 如 此 。 
笔者 发 现 ， 插 图 和 文字 说 明 的 质量 是 很 多 教材 的 一 个 不 足 之 处 。 很 多 时 候 插图 几乎 没有 


注解 ， 插 图 要 表达 的 意思 根本 没有 表现 出 来 。 本 书 的 所 有 插图 都 由 我 自己 完成 ,希望 它们 能 
够 很 好 地 阐释 教材 的 内 容 。 


OO 这 些 内 容 见 中 文 版 《计算 机 存储 与 外 设 》。 一 一 编辑 注 


本 图 描述 了 一 个 含有 3 条 指令 的 代码 段 是 如 何 修改 同一 个 寄存 器 (rT2 ) 的 内 容 的 。 
这 段 代码 的 功能 是 从 两 个 寄存 器 (r0 和 rl ) 中 各 取出 一 个 字 节 ， 将 它们 拼 在 一 起 ， 放 
入 第 3 个 寄存 器 (r2) 中 。 从 图 中 使 读者 能 够 很 容易 看 出 数据 是 如 何 被 处 理 的 。 


a) 寄存 器 的 初始 状态 


b) 执行 指令 ADD r2, rl, r2, 
LSL #16 后 r2 的 状态 

c) 执行 指令 ADD r2, r2, r0, 
LSL #8 后 r2 的 状态 


d) 执行 指令 MOV r2, r2, ROR 
#16 后 r2 的 状态 





内 容 概要 

本 书 即 为 中 文 版 《计算 机 组 成 原理 》 分 为 三 个 部 分 , 共 6 章 。 

第 一 部 分 : 起 始 篇 ， 这 部 分 介绍 了 一 些 使 读者 能 够 讨论 计算 机 体系 结构 的 基本 内 容 。 第 
1 章 采 用 了 一 种 不 常见 的 方法 来 介绍 计算 机 。 笔 者 首先 提出 一 个 问题 ， 接 下 来 解决 这 个 问题 ， 
然后 设计 出 一 个 系统 一 一 计算 机 来 实现 解决 方案 。 我 的 目的 是 要 说 明 计算 机 近似 地 模拟 了 人 
们 解决 问题 的 方法 。 因 为 计算 机 体系 结构 的 很 多 内 容 是 相互 关联 的 ， 所 以 我 给 出 了 计算 机 系 
统 的 简要 概述 ， 这 样 就 可 以 在 详细 讨论 某 些 内 容 之 前 使 用 这 些 内 容 ， 比 如 Cache. 

读者 会 看 到 将 信息 以 二 进 制 形式 编码 和 表示 的 方法 ， 例 如 书 中 介绍 了 有 符号 整数 和 无 符号 
整数 在 计算 机 上 的 运算 方法 ， 描 述 了 如 何 用 浮 点 数 表示 非常 大 和 非常 小 的 值 ， 还 简要 介绍 了 更 
复杂 的 数学 函数 。 

理想 情况 下 ， 第 一 部 分 还 应 包括 计算 机 是 如 何 从 简单 的 机 械 计算 器 发 展 到 今天 强大 的 处 
理 器 的 详细 历史 ， 因 为 所 有 学 生 对 这 一 专业 是 如 何 发 展 的 都 应 该 有 各 自 的 理解 。 计 算 机 的 发 
展 历史 是 一 个 极 有 吸引 力 的 故事 ， 它 始 于 使 乏味 的 数学 计算 变 得 更 简单 的 渴望 ， 后 来 发 展 到 
使 世界 大 大 “缩小 ”的 电报 和 器 大 西洋 电缆 项目。20 世纪 ， 现 代 计 算 的 诞生 基于 创建 电话 系 
统 的 技术 ， 并 受到 科学 家 进行 高 性 能 计算 以 及 商业 和 军事 等 需求 的 驱动 。 其 他 的 人 造 产 品 在 
性 能 提升 和 价格 降低 方面 都 没有 计算 机 的 变化 快 。 有 人 说 ， 如 果 汽 车 能 够 像 计 算 机 发 展 得 那 
样 快 ， 那么 人 们 开车 的 速度 就 可 以 达到 光速 的 很 多 信 ， 而 每 年 仅 需 使 用 一 滴 油 。 

不 幸 的 是 ， 在 这 里 笔者 无 法 客观 地 对 待 计算 机 的 历史 。 在 体系 结构 课 上 ， 学 生 必 须 学 习 
特定 的 知识 ， 而 且 为 了 成 为 专业 的 从 业者 ， 他 们 必须 学 会 一 系列 技能 。 因 此 笔者 将 一 些 有 关 
计算 机 历史 的 材料 放 在 了 本 书 出 版 公司 的 网 站 上 ， 在 下 面 的 “补充 材料 和 资源 ”一 节 可 以 找 
到 详细 内 容 。 作 者 强烈 建议 所 有 同学 阅读 这 些 材料 。 计 算 机 科学 家 有 “重新 发 明 车 轮 ” 的 倾 
向 ， 因 此 某 一 年 提出 的 概念 有 时 会 出 现在 下 一 年 的 不 同 材料 中 。 

第 二 部 分 : 指令 集体 系 结构 ， 这 是 本 课程 的 核心 ,包括 三 章 内 容 。 笔 者 首先 介绍 指令 集 
的 概念 ， 然 后 讨论 计算 机 体系 结构 的 一 些 重要 问题 ， 例 如 计算 机 能 够 直接 访问 和 处 理 的 数据 
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结构 。 第 3 章 介 绍 ARM 系列 微 处 理 器 ， 它 拥有 真正 简洁 的 体系 结构 ， 而 且 它 的 一 些 特点 引 
出 了 几 个 有 趣 的 话题 ， 例 如 仅 当 满足 特定 条 件 时 指令 才 会 执行 的 条 件 执行 ， 这 些 在 该 章 中 都 
有 讨论 。 如 果 本 书 能 够 覆盖 计算 机 体系 结构 的 所 有 变化 自然 最 好 ， 但 除非 你 决定 将 自己 的 后 
半生 奉献 给 这 一 工作 ， 和 否则 不 可 能 有 足够 的 时 间 。 大 家 将 在 第 4 章 看 到 计算 机 体系 结构 的 一 
些 变化 ， 例 如 能 够 极 大 地 简化 对 复杂 数据 结构 访问 的 存储 器 间接 寻 址 模式 ， 以 及 能 够 将 传统 
代码 压缩 为 其 正常 大 小 的 一 小 半 的 特殊 压缩 编码 处 理 器 。 

第 二 部 分 的 最 后 一 章 将 介绍 处 理 器 适应 视频 编码 和 解码 等 现代 多 媒体 应 用 的 方法 。 这 一 
章 还 会 简要 介绍 多 媒体 处 理 的 背景 ， 并 解释 为 何 高 性 能 计算 会 如 此 重要 。 

第 三 部 分 : 组 成 和 效能 ， 这 部 分 与 计算 机 组 成 有 关 ; 即 ， 计 算 机 是 如 何 工作 的 以 及 它 在 
内 部 是 如 何 组 织 的 。 

第 6 章 介绍 计算 机 是 如 何 工作 的 。 这 一 章 首 先 介绍 微 程序 设计 ， 这 项 技术 使 得 设计 任意 
复杂 的 计算 机 成 为 可 能 ， 目 前 它 依然 用 于 实现 Intel IA32 处 理 器 中 一 些 很 复杂 的 指令 。 接 下 
来 将 介绍 流水 线 ， 这 是 所 有 现代 计算 机 设计 的 基础 。 流 水 线 就 像 工 业 上 的 生产 线 ， 指 令 在 流 
水 线 上 逐条 执行 ， 就 像 流 过 计算 机 一 样 。 然 而 ， 流 水 线 在 遇 到 非 顺 序 执行 的 指令 (分支 ) 时 
会 出 现 问题 。 这 章 的 最 后 部 分 将 介绍 如 何 处 理 分 支 指 令 引起 的 问题 。 


补充 材料 和 资源 

本 书 为 教师 和 学 生 提 供 了 大 量 支 持 材 料 。 这 些 补充 材料 都 放 在 出 版 公司 的 网 站 上 。 要 获 
得 这 些 额外 的 课程 材料 ， 请 访问 www.cengage.com®,. YE cengage.com 主页 用 页 面 顶 部 的 搜索 
框 查找 本 书 ， 就 可 以 找到 访问 这 些 资源 的 产品 页 。 


教师 资源 


教师 资源 包括 教师 答案 手册 (ISM)， 包 含 教材 中 所 有 图 表 的 完整 PowerPoint 幻灯 片 ， 以 
及 一 套 所 有 公式 和 例题 的 幻灯 片 。 
学 生 资 源 

学 生 资 源 包 括 : 

e 一 本 详细 介绍 用 ARM 处 理 器 汇编 语言 编程 并 在 模拟 器 上 运行 这 些 程序 的 学 生 练习 册 ; 

e 附加 学 习 材 料 ， 包 括 关 于 计算 机 历史 的 一 章 和 卡 诺 图 概述 ; 

o 一 些 有 用 的 链接 ,包括 从 ARM 公司 下 载 学 生 版 Kiel 模拟 器 的 链接 ; 

e 书 中 的 代码 ; 

e 本 书 作者 网 站 (http://www.alanclements.org/) 上 发 布 的 所 有 幻灯 片 的 讲义 。 


致谢 
没 人 能 在 真空 中 写 出 一 部 教材 。 所 有 学 科 都 有 其 历史 、 背 景 和 文化 ， 计 算 机 体系 结构 也 


不 例外 。 一 个 作者 要 么 随波逐流 ， 要 么 沿 着 一 个 新 的 方向 写作 。 没 有 以 前 出 版 的 教材 ， 例 如 
当 笔 者 还 是 学 生 时 用 来 研究 体系 结构 的 教材 ， 笔 者 也 没有 办 法 写 出 这 本 书 。 同 样 地 ， 笔 者 也 


O 关于 本 书 教 辅 资 源 ， 用 书 教师 可 向 圣 智 学 习 出 版 公司 北京 代表 处 申请 ， 电话: 010-82862096/95/97， 电 子 邮 
件 : kai.yao@Cengage.com 或 asia.infochina@Cengage.com。 一 一 编辑 注 
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本 书 导读 | 


Computer Organization and Architecture: Themes and Variations 





穿越 计算 机 体系 结构 之 路 

阅读 一 本 书 最 简单 的 方法 是 从 第 一 页 开始 读 ， 直 到 最 后 一 页 。 不 过 这 是 一 本 很 厚 的 书 ， 
将 它 全 部 读 完 几乎 是 不 可 能 的 。 本 书 可 作为 “计算 机 组 成 原理 ”课程 的 教材 ， 以 下 建议 也 许 
会 帮助 读者 阅读 本 书 。 

尽管 可 以 说 本 书 中 的 所 有 内 容 都 很 重要 ， 但 它们 不 可 能 对 每 位 读者 都 同等 重要 。 一 些 读 
者 也 许 已 经 熟悉 了 基础 知识 ， 可 以 略 过 本 书 的 介绍 部 分 。 学 生 们 也 许 还 发 现 一 些 内 容 已 经 超 
出 了 课程 考试 范围 ， 不 过 这 并 不 意味 着 他 们 可 以 跳 过 这 些 内 容 。 后 面 一 些 高 级 章节 也 许 更 贴 
近 实 践 ， 或 对 学 生 今后 的 职业 生涯 更 重要 。 我 曾经 问 过 学 生 :“ 如 果 雇 主 面试 两 个 条 件 几 乎 
完全 相同 的 学 生 ， 其 中 一 个 超出 课程 范围 读 完了 一 些 额 外 的 资料 ， 你 们 认为 哪个 学 生 更 有 可 
能 获得 这 份 工 作 ?” : 

这 里 将 给 出 一 些 如 何 阅读 本 书 的 建议 ,， 包括 : 

e 章节 概要 列 出 了 本 书 的 各 个 内 容 对 不 同 课程 的 适用 性 ; 

e 面向 初学 者 和 高 级 读者 的 课程 的 内 容 组 织 ; 

e 本 书 与 IEEE CS/ACM 计算 学 科 课 程 体系 的 关系 ; 

e 本 书 中 反复 出 现 的 主题 。 


章节 概要 


下 表 列 出 了 本 书 的 各 个 章节 ， 指 明了 它们 的 内 容 是 怎样 符合 教学 计划 的 ， 以 及 这 些 章节 
中 是 否 含有 可 作为 初级 或 高 级 背景 知识 的 内 容 。 


章节 高 级 读者 

EO as | | 

1 计算 机 系统 体系 结构 一 下 有 
an w eee, 

2 计算 机 算术 C ee ee ea 
er eee es eee 

3 体系 结构 与 组 成 v] | Jv |] 
E A 

4 指令 集体 系 结构 wl || | 

4.1 数据 存储 和 栈 ee 1 | 
O 1 | i 

5 计算 机 体系 结构 与 多 媒体 "|| | 
i ee 

6 处 理 器 控制 Iy eee eee 

RETTET o l J (x | 


适合 初学 者 和 高 级 读者 的 方法 
有 人 让 笔者 就 阅读 本 书 的 方法 给 出 一 些 建议 。 上 面 的 内 容 对 学 生 和 教师 使 用 本 书 均 有 帮 
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助 。 笔 者 在 这 里 给 出 两 个 建议 , 一 个 适用 于 初次 学 习 这 些 内 容 的 学 生 ， 另 一 个 则 适用 于 已 经 
学 习 过 数字 逻辑 或 类 似 基 础 课程 的 学 生 。 但 这 仅仅 是 建议 。 每 门 课程 都 不 相同 ， 每 位 老师 也 
有 自己 的 偏好 。 下 面 两 种 方案 都 不 是 细 化 的 ， 因 为 并 非 所 列 出 的 每 个 章节 都 必须 在 课 上 讲授 。 


基础 课程 


4.1 4.2 
6.2 6.3 6.4 6.5 6.6 


Rint 







Hh 


H 





5 IEEE CS/ACM 计算 学 科 课 程 体 系 的 关系 


1991 年 ，ACM 和 IEEE 计算 机 学 会 发 布 了 一 份 有 关 计算 学 科 课 程 体系 的 报告 (CC1991 ) 
作为 计算 机 科学 课程 设置 的 指南 。CC1991 为 全 世界 所 有 大 学 提供 了 一 份 计算 机 科学 课程 设 
置 的 框架 。 这 一 工作 是 基于 ACM Curriculum’68 完成 的 。 

计算 领域 没有 一 成 不 变 的 事物 ，ACM 和 IEEE 计算 机 学 会 在 1998 年 开始 将 CC1991 更 
新 为 CC2001 以 涵盖 过 去 10 年 的 变化 。 我 兽 在 Willis King 博士 的 带领 下 参加 了 CC2001 标 
准 体系 结构 部 分 的 修订 。 

2007 年 ， 为 了 反映 当时 的 发 展 趋势 ，CC2001 开始 进行 内 部 修订 。2007 年 修订 版 中 引入 
了 一 些 新 内 容 ， 但 并 没有 包括 那些 全 新 的 领域 。 在 更 新 的 学 科 课 程 体系 标准 中 ， 我 主要 负责 
体系 结构 部 分 的 草稿 撰写 工作 ， 然 后 提交 编 委 会 审定 。 下 面 列 出 了 计算 机 体系 结构 部 分 每 个 
内 容 的 学 习 目 标 。 

中 文 版 《计算 机 组 成 原理 》 涵 盖 计 算 机 组 成 与 体系 结构 的 核心 内 容 。 


数字 逻辑 和 计算 机 算术 [核心 ] 


学 习 目 标 : 

© 用 基本 模块 设计 简单 电路 ; 

。 掌握 二 进 制 数 的 与 、 或 、 非 和 异 或 操作 ; 

o 理解 如 何 用 二 进 制 表示 数字 、 文 本 、 图 像 和 声音 ， 以 及 这 些 表示 的 局 限 性 ; 

© 理解 舍 人 效应 是 如 何 产生 误差 的 ， 以 及 误差 传播 对 链 式 计算 精度 的 影响 ; 

。 掌握 如 何 压缩 数据 以 减少 对 存储 容量 的 需求 ， 包 括 无 损 压 缩 和 有 损 压 缩 的 概念 。 
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计算 机 体系 结构 [核心] 


学 习 目 标 : 

e 介绍 计算 机 从 真空 管 到 超大 规模 集成 电路 (VLSI) 的 发 展 ; 

e 理解 指令 集体 系 结构 (ISA) 的 概念 ， 从 功能 和 资源 (寄存 器 和 存储 器 ) 使 用 等 方面 
描述 了 机 器 指令 的 本 质 ; 

© 理解 指令 集体 系 结构 、 微 体系 结构 、 系 统 体 系 结构 的 关系 ， 以 及 它们 在 计算 机 发 展 
中 的 作用 ; 

© 了 解 不 同类 型 的 指令 一 一 数据 移动 、 算 术 运 算 、 逻 辑 运算 和 流程 控制 ; 

e 掌握 寄存 器 — 存储 器 型 指令 集 和 装 人 /存储 型 指令 集 的 区 别 ; 

o 掌握 如 何在 机 器 级 实现 有 条 件 操作 |; 

e 理解 子 过 程 调用 和 返回 的 实现 方法 ; 

e 掌握 系统 在 线 可 编程 OSP) 的 资源 不 足 对 高 级 语言 和 编译 器 设计 的 影响 ; 

o 理解 在 汇编 语言 级 如 何 将 参数 传递 给 子 程序 ， 如 何 创建 和 访问 本 地 工作 区 。 

接口 和 通信 [核心 ] 

学 习 目 标 : 

o 掌握 开 环 通信 和 闭环 通信 的 必要 ， 以 及 使 用 缓冲 来 控制 数据 流 的 方法 ; 

o 能 够 解释 如 何 通 过 中 断 实 现 IO 控制 和 数据 传输 ; 


e 能 够 认识 计算 机 系统 中 不 同类 型 的 总 线 ， 理 解 多 个 设备 如 何 竞争 并 获得 总 线 的 使 用 权 ; 

e 了 解 总 线 技术 的 发 展 ， 理 解 一 些 现代 总 线 (包括 串 行 和 并 行 ) 的 特点 和 性 能 。 
存储 系统 组 成 与 体系 结构 [ 核心 | 

学 习 目 标 : 

© 能 够 认识 一 台 计算 机 中 的 存储 技术 ， 了 解 存储 技术 的 变化 方式 ; 

o 掌握 为 诸如 DVD 等 复杂 数据 存储 机 制 制 定 存 储 标准 的 必要 ; 

o 理解 为 何 存 储 层次 对 于 减少 有 效 存储 延迟 是 必要 的 ; 

e 掌握 数据 总 线 上 传输 的 大 多 数 数据 都 是 填充 到 Cache; 

o 描述 Cache 的 各 种 组 织 方式 ,掌握 每 种 方法 是 如 何在 开销 和 性 能 之 间 进 行 折 中 的 ; 

o 掌握 多 处 理 器 系统 中 Cache 一 致 性 的 必要 性 ; 

e 描述 虚 存 的 必要 性 ， 虚 存 与 操作 系统 的 关系 ， 将 物理 地 址 转换 为 逻辑 地 址 的 方法 。 


功能 性 组 织 结构 [核心 ] 


学 习 目 标 : 

e 回顾 如 何 使 用 寄存 器 传输 语言 描述 计算 机 内 部 的 操作 ; 

o 理解 CPU 控制 器 是 如 何 解释 机 器 指令 的 一 一 直接 解释 或 将 其 解释 为 一 段 微 程序 ; 

e 掌握 如 何 使 用 流水 线 通 过 指令 重 释 执 行 提高 处 理 器 性 能 ; 

o 理解 处 理 器 性 能 与 系统 性 能 之 间 的 区 别 ( 即 存储 系统 、 总 线 和 软件 对 总 体 性 能 的 影响 ); 
。 掌握 超标 量 体 系 结构 是 如 何 使 用 多 个 运算 单元 在 每 个 时 钟 周期 内 执行 多 条 指令 的 ; 

o 理解 如 何 用 MIPS 或 SPECmarks 等 指标 衡量 计算 机 的 性 能 以 及 这 些 指 标的 局 限 ; 
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o 掌握 功 耗 与 计算 机 性 能 之 间 的 关系 ， 以 及 将 移动 应 用 功 耗 降 至 最 低 的 必要 性 。 
多 处 理 和 其 他 体系 结构 [核心 ] 


学 习 目 标 : 

© 讨论 并 行 处 理 的 概念 以 及 并 行 性 与 性 能 之 间 的 关系 ; 

e 掌握 用 64 位 寄存 器 并 行 处 理 多 个 多 媒体 数据 (例如 8 位 /16 位 音频 和 视频 数据 ) 以 

提高 性 能 ; 

e 理解 如 何在 单个 芯片 上 集成 多 个 处 理 器 以 提高 性 能 ; 

。 掌握 将 算法 表示 为 适合 在 并 行 多 处 理 器 上 执行 的 必要 性 ; 

e 理解 专用 图 形 处 理 器 (GPU) 是 如 何 加 速 图 形 应 用 的 性 能 的 ; 

o 理解 如 何 用 电子 设备 配置 和 重新 构建 计算 机 的 组 成 结构 。 
性 能 提升 [可 选 ] 

学 习 目标 : 

e 解释 分 支 预测 的 概念 以 及 用 它 提 高 流水 线 计算 机 性 能 的 方法 ; 

o 理解 猜测 执行 是 如 何 提高 性 能 的 ; 
给 出 超标 量 体 系 结构 的 详细 描述 ， 以 及 乱 序 执行 时 确保 程序 正确 性 的 必要 ; 
解释 猜测 执行 机 制 ， 认 识 判 断 猜 测 正确 性 的 条 件 ; 
讨论 多 线程 技术 的 性 能 优势 ， 以 及 那些 使 这 种 技术 很 难 达到 最 大 性 能 的 限制 因素 ; 
掌握 VLIW 和 EPIC 体系 结构 的 基本 特点 以 及 它们 之 间 (以 及 它们 与 超标 量 处 理 器 之 
间 ) 的 区 别 ; 

。 理解 处 理 器 是 如 何 通过 重新 安排 存储 器 load 和 store 指令 的 顺序 而 提高 性 能 的 。 
网 络 和 分 布 式 系统 体系 结构 [ 可 选 ] 

学 习 目标 : 

© 解释 网 络 系统 的 基本 组 成 ， 区 分 局 域 网 (LAN) 和 广域网 (WAN); 

© 讨论 与 分 层 网 络 协议 设计 有 关 的 体系 结构 问题 ; 

© 解释 网 络 系统 和 分 布 式 系统 在 体系 结构 上 的 不 同 ; 

。 掌握 无 线 计算 的 特殊 需求 ; 

o 理解 物理 层 和 数据 链 路 层 角 色 上 的 不 同 ， 掌 握 数 据 链 路 层 如 何 处 理 物理 层 的 缺陷 ; 

e 描述 正在 兴起 的 以 网 络 为 中 心 的 计算 领域 ,评价 它们 当前 的 性 能 、 局 限 和 近期 的 发 


展 潜 力 ; 
o 理解 网 络 层 是 如 何 检 错 和 纠 错 的 。 
外 设 [ 可 选 ] 
学 习 目 标 : 
e 理解 如 何 用 数字 形式 描述 压力 等 模拟 量 ， 以 及 使 用 有 限 状 态 表 示 是 怎样 导致 量化 误 
差 的 ; 


© 掌握 多 媒体 标准 的 必要 性 ， 能 够 用 非 技 术语 言 解释 标准 的 要 求 ; 
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o 理解 为 何 多 媒体 信号 通常 需要 通过 无 损 或 有 损 编 码 压 缩 来 节约 带宽 ; 
。 讨论 霍 尔 器 件 、 压 力 计 等 传感器 的 设计 、 构 造 和 操作 原理 ; 

。 掌握 典型 输入 设备 是 如 何 工作 的 ; 

o 理解 不 同 显示 设备 的 工作 原理 和 性 能 ; 

© 研究 数码 相机 等 基于 高 性 能 计算 机 的 设备 的 工作 过 程 。 


新 的 计算 方向 [可 选 ] 


学 习 目 标 : 

o 掌握 现代 计算 的 底层 物理 基础 ; 

。 理解 物质 的 物理 特性 是 如 何 制 约 计算 机 技术 的 ; 

e 掌握 如 何 开发 物质 的 量子 特性 以 开发 大 规模 并 行 性 ; 
e 掌握 如 何 用 光 完 成 特定 类 型 的 计算 ; 

o 理解 有 机 计算 机 是 如 何 挖掘 复杂 分 子 的 特性 的 ; 
o 了 解 存储 设计 的 趋势 ， 如 相 变 存 储 器 和 铁 磁 存 储 器 。 


多 次 出 现 的 主题 


本 书 的 一 些 内 容 会 多 次 出 现在 计算 机 体系 结构 或 其 他 课程 中 。 它 们 一 般 是 课程 的 基本 内 
容 ， 有 时 也 会 出 现在 计算 机 科学 的 其 他 领域 。 笔 者 力求 完整 地 列 出 几 个 多 次 出 现 的 主题 以 及 
它们 在 本 教材 中 出 现 的 章节 。 但 这 个 列表 无 论 如 何 也 不 能 算 作 是 完整 的 。 


寻 址 模式 3.2.2 3.7 4.5 

总 线 1.6.2 

条 件 分 支 3.1.2 3.6.2 3.6.4 6.1 
指令 格式 3.5.4 327 4.3 4.6.1 
存储 器 1.4.5 1.6.1 

条 件 执行 3.6.5 

寄存 器 3.2.1 3.3.1 

SIMD 处 理 5.3 

栈 3.8 3.10 3.11.3 4.1 
状态 图 1.4.2 6.6 

存储 程序 计算 机 1.4 1.5 3.1 


时 序 图 6.3.2 
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| 第 一 部 分 


Computer Organization and Architecture: Themes and Variations 


起 始 篇 





本 书 将 介绍 支配 所 有 数字 计算 机 系统 的 基本 原理 ， 并 讨论 不 同类 型 计算 机 之 间 的 差异 。 
本 书 的 内 容 将 覆盖 整个 计算 机 系统 ， 而 不 是 仅仅 集中 在 CPU 上 而 忽略 存储 器 和 输入 /输出 
机 制 。 

本 书 适 合 不 同类 型 的 读者 。 一 部 分 读者 可 能 刚 开始 接触 计算 机 体系 结构 和 硬件 ， 而 另 一 
些 读者 可 能 已 经 学 习 了 有 关 数 字 系 统 设计 的 先导 课程 ， 或 是 可 能 已 经 独立 地 阅读 了 一 些 相关 
的 书籍 资料 。 为 了 向 所 有 读者 提供 同 祥 的 背景 知识 ， 本 书 将 从 构造 一 台 通用 计算 机 开始 ， 首 
先 提 出 一 个 简单 的 问题 ， 然 后 分 析 需 要 使 用 哪些 机 制 来 解决 这 个 问题 。 虽 然 这 是 一 种 非常 传 
统 的 方法 ， 但 它 却 恰好 说 明 ， 我 们 今天 所 用 的 计算 机 都 是 从 解决 问题 的 实际 需求 出 发 ,很 自 
然 地 发 展 而 来 的 。 我 不 是 历史 学 家 ， 但 我 认为 计算 机 采用 现 有 的 结构 是 不 可 避免 的 ， 因 为 时 
在 计算 机 时 代 之 前 很 多 年 ， 我 们 今天 所 熟知 的 一 些 计算 机 的 基本 原理 就 已 经 被 提出 了 。 计 算 
机 时 代 之 所 以 出 现在 20 世纪 ， 是 因为 当时 的 技术 使 得 制造 出 可 用 的 计算 机 成 为 可 能 。 

本 书 分 三 部 分 ， 如 下 所 示 。 





起 始 篇 ,介绍 数字 计算 机 的 概念 、 历 史 以 及 基本 技术 。 这 一 部 分 详细 介绍 计算 机 算术 ， 使 读者 能 够 理 

解 信息 是 如 何在 计算 机 内 部 表示 并 处 理 的 ， 以 及 基本 功能 单元 是 如 何 工作 的 。 
指令 集体 系 结构 ( ISA)， 讨 论 计算 机 的 编程 模型 。 这 部 分 以 ARM 这 个 很 有 代表 性 的 系列 微 处 理 器 为 

例 ， 介 绍 了 寄存 器 模型 、 指 令 类 型 和 寻 址 方式 。 为 使 读者 了 解 如 何 编写 和 执行 简单 的 程序 ， 这 一 部 分 还 

会 介绍 ARM 汇编 语言 程序 的 设计 方法 。 

组 成 和 效能 ， 第 三 部 分 主要 关注 计算 机 内 部 如 何 组 织 ， 并 讨论 一 些 通过 相当 灵巧 的 设计 技术 提高 计算 

机 速度 的 方法 。 











有 多 种 方法 可 以 设计 处 理 器 、 存 储 系统 、 总 线 和 接口 。 我 们 将 介绍 控制 计算 机 工作 的 原 


2 RED Æ hh 





理 ， 并 讨论 工程 师 用 来 设计 实际 计算 机 的 一 些 不 同 的 方法 


术语 体系 结构 的 3 种 用 法 

尽管 计算 机 文献 中 多 次 使 “用 体系 结构 ”这 一 术语 ， 但 它 有 3 种 不 同 的 使 用 方式 。 

指令 集体 系 结构 (ISA) 描述 了 程序 员 看 到 的 计算 机 的 抽象 视图 ， 并 且 定 义 了 汇编 语 
言 和 编程 模型 。 之 所 以 说 它 是 抽象 的 ， 是 因为 它 并 没有 考虑 计算 机 的 实现 。 

微 体系 结构 描述 了 一 种 指令 集体 系 结构 的 实现 方式 。 换 和 句 话 说 ， 微 体系 结构 关注 计 
算 机 的 内 部 设计 。 ' 

系统 体系 结构 关注 包括 处 理 器 、 存 储 器 、 总 线 和 外 设 在 内 的 整个 系统 。 所 有 设计 
计算 机 系统 的 人 以 及 必须 安排 组 件 以 获得 最 佳 解 决 方案 的 人 ， 都 对 系统 体系 结构 感 


兴趣 。 





下 图 列 出 了 计算 机 系统 体系 结构 所 涉及 的 内 容 。 图 中 描述 了 计算 机 系统 的 各 个 部 件 ， 从 
完成 信息 处 理 的 CPU， 到 存储 大 量 信息 的 磁盘 驱动 器 (包括 笔 式 驱动 器 和 固态 盘 )， 以 及 传 
递 数据 的 总 线 (信息 高 速 公 路 )。 计 算 机 系统 还 包括 键盘 、 和 鼠标 、 显 示 器 、 打 印 机 (个 人 计 
算 机 内 )、 数 码 相 机 或 GPS 接收 器 (手机 或 导航 设备 中 ) 等 输入 /输出 设备 。 计 算 机 体系 结 
构 课 程 通常 没有 足够 的 学 时 介绍 这 些 从 简单 的 机 电 和 鼠标 到 极为 复杂 的 GPS 接收 器 的 多 种 多 
样 的 外 部 设备 。 









计算 机 系统 的 物理 组 织 影响 计算 机 


设计 的 因素 


Gi 
> 








显示 控制 器 


应 用 





计算 机 系统 体系 结构 概览 
术语 中 央 处 理 单 元 (CPU) 指 计算 机 系统 中 负责 从 存储 器 中 读 指 令 并 执行 指令 的 部 分 
PN 





今天 ， 它 在 很 大 程度 上 等 价 于 微 处 理 器 。 图 中 很 多 计算 机 系统 的 组 件 ， 本 书 都 会 用 专门 的 一 
章 或 多 章 介 绍 。 

计算 机 体系 结构 领域 的 学 生 也 应 该 了 解 影响 计算 机 设计 的 各 种 因素 (如 上 图 右 侧 所 示 )。 
例如 ， 性 能 与 计算 机 运行 速度 有 关 。 同 样 ， 我 们 还 对 异常 处 理 感 兴趣 。 它 是 允许 计算 机 响应 . 
外 部 事件 的 机 制 ， 例 如 移动 鼠标 或 按 下 一 个 按键 。 功 耗 是 当前 计算 的 关键 因素 ， 因 为 它 必须 
尽 可 能 小 。 为 了 避免 处 理 器 因 过 热 而 损坏 ， 高 性 能 计算 机 必须 降低 功 耗 ， 而 为 了 延长 电池 寿 





| 为 什么 本 书 的 内 容 这 样 组 织 ? 
| 由 于 存在 大 量 互相 冲突 的 内 容 ， 选 择 一 种 有 效 的 教材 内 容 组 织 方式 并 不 是 一 件 容易 
| 的 事 。 例 如， 我 希望 在 书 中 尽 可 能 早 地 讨论 计算 机 的 历史 ， 但 这 也 许 没 那么 简单 ， 因 为 
在 介绍 读者 所 需 的 基本 概念 之 前 是 无 法 介绍 计算 机 的 历史 的 。 一 种 折 中 办 法 是 从 一 些 计 
算 历史 上 的 里 程 碑 事件 开始 ， 而 将 其 余 的 故事 放 在 后 面 介绍 。 
| 不 同 的 大 学 采用 不 同 的 方式 讲授 计算 机 体系 结构 和 组 成 。 然 而 ， 所 有 课程 都 会 重点 
强调 指令 集体 系 结构 ( 即 计算 机 的 指令 集 、 寄 存 器 结构 和 寻 址 方式 )。 因 此 ， 我 将 与 计算 
| 机 指令 集体 系 结构 相关 的 章节 放 在 本 书 的 开始 位 置 。 
| 与 其 他 教材 相 比 ， 本 书 将 与 性 能 有 关 的 章节 放 在 更 为 靠 后 的 位 置 ， 这 是 因为 我 希望 
学 生 在 阅读 如 何 测量 计算 机 的 速度 和 性 能 等 内 容 之 前 能 够 理解 指令 集体 系 结构 的 概念 。 
计算 机 体系 结构 课 的 教师 都 必须 选择 一 款 处 理 器 用 于 指令 集 的 教学 。 我 选择 的 是 
| ARM 系列 微 处 理 器 ， 因 为 它 的 学 习 曲 线 并 不 陡峭 ， 学 生 能 够 很 容易 地 掌握 ARM 指令 集 
的 主要 特点 。 此 外 ，ARM 也 是 一 种 非常 简洁 的 处 理 器 ， 在 工业 界 应 用 十 分 广泛 。 
| 计算 机 体系 结构 课 有 两 种 基本 的 教学 方法 : 一 种 被 称 作 自 底 向 上 (bottom-up), 4— 
| 种 则 是 自 顶 向 下 (top-down)。 自 底 向 上 方法 从 门 开始 介绍 ， 然 后 是 电路 、 系 统 ， 最 后 是 
计算 机 。 每 个 新 的 层次 都 构建 在 之 前 的 教学 内 容 上 ， 学 生 之 所 以 能 够 理解 一 台 计 算 机 是 
如 何 工 作 的 ， 是 因为 他 已 经 了 解 了 每 个 部 件 的 工作 原理 。 这 种 教学 方法 的 问题 在 于 学 生 
| 不 了 解 最 终 的 设计 目标 ， 同 时 也 有 可 能 陷入 细节 之 中 。 自 顶 向 下 的 方法 很 适合 如 今 的 抽 
象 和 面向 对 象 设计 方法 。 学 生 从 顶层 计算 机 系统 开始 ， 逐 步 细 化 ， 得 到 更 低 的 层次 。 例 
| 如 ， 可 以 从 高 级 语言 开始 ， 说 明 如 何 将 高 级 语言 编译 为 机 器 指令 ， 然 后 介绍 如 何在 框图 
一 级 实现 这 些 指令 ， 接 下 来 介绍 功能 电路 ， 最 后 以 门 设计 电路 收尾 。 不 同 的 教授 会 选择 
不 同 的 教学 方法 ; 我 却 认为 教育 的 结果 更 多 地 取决 于 教授 的 能 力 ， 而 不 是 他 所 选择 的 教 
| 学 方法 。 我 个 人 采用 自 顶 向 下 和 自 底 向 上 相 结合 的 方法 进行 教学 。 
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“ 弹 珠 游戏 受到 物理 方面 的 约束 ， 从 根本 上 说 是 受到 控制 小 金属 球 运动 的 物理 规律 的 约 
东 。 视 频 世 界 却 不 知道 这 样 的 限制 。 弹 珠 在 视频 世界 中 飞翔 、 旋 转 、 加 速 、 改 变形 状 和 颜 
色 、 消 失 和 再 次 出 现 。 它 们 的 行为 就 像 计算 机 程序 创造 的 任何 物体 的 行为 一 样 ， 仅 仅 受 限于 
程序 员 的 想象 力 。 视 频 游 戏 中 对 象 仅 仅 是 真实 对 象 的 一 种 表现 形式 。 视 频 游 戏 中 的 一 个 球 和 
真实 的 球 不 一 样 ， 从 不 需要 遵循 重力 定律 ， 除 非 程 序 员 希 望 它 这 么 做 。 

一 一 Sherry Turkle, 1984 


“一 个 程序 员 正 在 向 五 角 大 楼 的 高 层 领 导 们 介绍 一 台 带 有 人 工 智 能 和 语音 识别 功能 的 超 
级 计算 机 。 这 人 台 计 算 机 被 用 来 模拟 一 场 著名 的 国内 战争 。 在 一 个 关键 的 时 刻 ， 一 位 将 军 打 断 
了 模拟 并 问 计 算 机 ,，“ 嗯 ， 你 准备 进攻 还 是 撤退 ? ”计算 机 回答 ， “是 。 

“是 什么 ? ”将 军 喊 道 。 

“先生 ， 是 ， 先 生 ”"， 计 算 机 回答 道 。 

== 


“我 认为 全 世界 只 需要 购买 5 台 计 算 机 。” 
一 一 Thomas Watson, 1943 


“我 们 在 剑桥 有 一 台 计 算 机 ; 曼彻斯特 也 有 一 台 ， 在 NPL。 我 想 在 苏格兰 还 应 该 有 一 台 ， 
但 这 就 足够 了 。” 
一 一 Hartree 教授 ，1951 


“不 是 所 有 人 都 需要 一 台电 脑 。” 
一 一 Ken Olson， 数 字 设 备 公 司 (DEC) 的 创始 人 ，1977 


“HETANA, ARREK” 
—— George Santayana, 1905 


“往事 如 同 异 国 他 乡 ; 他 们 在 那里 做 着 不 同 的 事情 。 
—Harold Pinter 


计算 机 是 人 类 发 明 的 最 引 人 瞩 目的 设备 ， 因 为 看 起 来 它 什么 都 能 做 ， 而 且 它 的 性 能 也 在 
按 月 不 断 增长 。 计 算 机 与 心脏 起 搏 器 一 起 工作 ， 能 够 检测 出 不 规律 的 心跳 ， 并 且 使 心率 恢复 
正常 。 在 人 类 飞行 员 都 很 难 驾 驶 飞机 离开 跑道 的 浓 雾 中 ， 飞 机 导航 系统 中 的 计算 机 却 能 够 准 
确 地 引导 一 架 Airbus 380 那样 载 客 超过 800 人 的 飞机 安全 着 陆 。 在 电影 工业 中 ， 计 算 机 已 经 
能 够 制作 出 人 群 场景 中 和 真人 难以 区 分 的 临时 演员 。 

本 书 将 解释 计算 机 是 如 何 拥 有 这 些 本 领 的 ， 以 及 它 是 如 何 随 着 底层 技术 的 进步 不 断 提 高 
并 不 断 承 担 新 任务 的 。 我 们 将 以 一 个 计算 机 系统 (computer system) 为 例 回答 上 述 问题 ， 并 
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解释 术语 计算 机 系统 体系 结构 (computer system architecture) 的 含义 。 

本 章 的 一 个 重要 目标 是 解释 计算 机 实际 做 了 什么 。 绝 大 多 数 人 仅仅 知道 计算 机 能 做 什 
么 ， 但 很 少 有 人 知道 它 是 怎样 做 到 这 一 切 的 。 我 们 将 展示 CPU 如 何 与 计算 机 的 其 他 部 件 一 
起 ， 完 成 现代 计算 机 所 做 的 各 种 不 平常 的 事情 。 

本 章 将 简要 概述 读者 在 后 面 章节 遇 到 的 一 些 重要 概念 (例如 数据 存储 )。 我 们 要 特别 强 
调 的 是 ， 计 算 机 体系 结构 既 从 整体 上 关注 计算 机 系统 ， 也 关注 作为 计算 机 心脏 的 微 处 理 器 。 
本 书 不 会 从 描述 一 个 真实 的 计算 机 系统 入 手 ， 而 是 通过 一 个 简单 的 问题 引出 计算 机 的 概念 ， 
然后 分 析 为 了 解决 这 个 问题 需要 进行 哪些 操作 。 

本 章 开 始 构建 一 个 场景 ， 通 过 分 析 解 决 一 个 简单 问题 需要 哪些 资源 来 解释 计算 机 的 行 
为 。 学 习 过 入 门 课程 的 读者 可 以 跳 过 这 一 节 。 

我 们 所 处 的 时 代 

计算 机 体系 结构 和 组 成 教材 常常 使 用 与 计算 机 有 关 的 图 片 开场 一 一 大 型 计算 机 和 小 型 计 
算 机 ， 在 科幻 电影 《2001》 中 看 到 的 老式 计算 机 ， 以 及 新 式 的 计算 机 。 今 天 ， 距 离 计 算 机 
的 出 现 已 经 过 了 80 年 ， 距 离 个 人 计算 机 或 普 适 计算 机 的 出 现 也 已 经 过 了 30 余年 。 我 不 想 
将 其 他 与 计算 机 有 关 的 图 片 强加 给 读者 。 我 们 的 生活 中 已 经 到 处 都 是 计算 机 ， 而 且 已 经 离 不 
开 计算 机 了 。 汽 车 中 就 有 大 量 的 计算 机 ， 控 制 着 从 和 刹车 到 引擎 点 火 定 时 和 关闭 车 窗 等 各 种 
事情 。 

计算 机 革命 发 展 得 十 分 迅猛 ， 以 至 于 仅仅 几 年 前 拍摄 的 科幻 电影 中 有 关 计 算 机 使 用 的 内 
容 就 已 经 很 尴 众 地 过 时 了 。 最 近 我 (再 次 ) 观看 了 一 部 科幻 电影 的 杰作 ， 由 雷 德 利 * 斯 科 特 
执导 ， 拍 摄 于 1982 年 的 《 银 翼 杀手 》(Blade Runner)， 其 中 的 太空 旅行 已 经 是 件 很 普通 的 事 
情 ， 而 且 人 们 已 经 可 以 在 大 桶 中 培育 更 优秀 的 克隆 人 。 然 而 ,在 这 部 电影 里 ， 数 据 显示 终端 
还 是 粗大 而 繁重 的 'CRT 设备， 显示 分 辩 率 低 得 可 怕 ， ME RERE) ARA Web 风格 的 
通信 网络 ， 也 没有 支持 视频 的 微型 手机 。 这 些 新 功能 都 不 为 当时 的 科幻 小 说 作者 所 知 。 我 们 
正 处 于 一 个 计算 机 技术 的 发 展 速度 远 远 快 于 作家 想象 力 的 时 代 (《 黑客 帝国 》 中 那样 的 虚幻 
世界 当然 是 个 例外 )。 

计算 机 的 各 个 组 成 部 分 (如 数据 处 理 、 数据 存储 、 数 据 传 输 、 软 件 、 功 耗 ， 等 等 ) 的 技 
术 发 展 是 不 均衡 的 , 这 是 本 书 的 一 个 基本 主题 。 实 际 上 ， 计 算 机 各 组 成 部 分 间 的 性 能 差异 非 
WA. 例如，1985 年 微 处 理 器 的 主 频 大 约 为 10MHz， 存 储 器 访问 时 间 约 为 500ns ( 5 个 时 钟 
周期 )。 而 现在 处 理 器 的 主 频 已 经 达到 3GHz， 存 储 器 的 访问 时 间 还 停留 在 S0ns ( 150 个 时 
钟 周期 ) 左右 。 正 如 我 们 将 要 看 到 的 那样 ， 处 理 器 和 存储 器 之 间 不 断 增 大 的 性 能 差距 迫使 设 
计 者 不 断 寻 找 缓解 存储 器 平均 访问 时 间 问 题 的 方法 ， 比 如 多 级 Cache (《 计 算 机 存储 与 外 设 》 
第 1 章 ) 和 超 线程 。 


| 一 些 成 功 的 预计 

我 们 当然 不 能 过 于 苛刻 地 要 求 科幻 小 说 作家 。 下 面 就 列 出 一 些 成 功 的 预言 。 

机 器 人 (robot) ——Karel Capek 在 他 1921 年 出 版 的 小 说 《罗素 姆 的 全 能 机 械 人 》 
| 中 首次 使 用 了 这 个 词 (robot 这 个 词 源 于 斯 拉夫 语 工作 )。 
| i445 2 = (communication satellite) ——A.C. Clark， 一 位 由 工程 师 改 行 的 科幻 小 说 
| 
| 





作家 ，1945 年 在 一 本 科技 期 刊 上 提出 了 地 球 同步 轨道 上 的 通信 卫星 的 使 用 方法 。 
监控 ( surveillance) ) — George Orwell BB 乌托邦 小 说 (1984) 中 设想 了 一 个 能 够 
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| 筷 踪 人 们 的 每 个 行动 ， 并 大 肆 泻 染 没什么 隐私 的 政府 。 
智能 住宅 (the intelligent house) ——1950 # Ray Bradbury 在 其 小 说 《火星 纪事 》 
中 创造 了 一 所 巨大 的 自动 化 的 房屋 。 
遗传 工程 ( genetic engineering) 一 一 1932 年 Aldous Huxley 在 其 小 说 《美丽 新 世界 》 
中 描述 了 使 用 遗传 工程 改变 人 类 。 这 是 一 个 典型 的 不 可 理喻 的 预测 ， 因 为 他 既 不 了 解 
DNA (当时 还 没有 发 现 )， 也 不 知道 破解 DNA 结构 所 需 的 计算 机 。 
个 人 通信 (personal communication) 一 一 尽管 《 银 曙 杀手 》 中 确实 没有 个 人 通信 技术 ， 
但 《星际 迷航 》 中 确实 出 现 了 通信 装置 。 
复制 器 (replicator) 一 一 《星际 迷航 》 中 ， 人 类 使 用 复制 器 制作 东西 ， 例 如 食物 。 
这 一 技术 现在 已 经 实现 了 。 复 制 器 与 喷 墨 打印 机 类 似 ， 喷 出 材料 得 到 一 层 薄膜 。 随 着 机 
器 在 同一 个 区 域内 不 断 喷 出 材料 ， 一 层 层 薄 膜 渐 渐 堆 积 起 来 ， 得 到 三 维 物体 。 目 前 这 种 
复制 设备 被 用 于 将 图 样 转换 为 样品 。 如 果 能 够 喷 出 不 同 的 材料 (例如 金属 和 绝缘 体 )， 复 
制 器 有 可 能 被 用 于 制造 三 维 电路 。 


第 一 代 和 第 二 代 计 算 机 体系 结构 教材 中 几乎 没有 提 及 功 耗 。1980 年 ， 用 户 只 要 给 计算 
机 接 上 电源 就 够 了 ， 除 非 他 正好 是 为 数 不 多 的 几 个 给 人 造 卫 星 设计 电子 设备 的 人 之 一 。 那 时 
的 计算 机 庞大 而 笨重 ， 几 乎 没 人 会 想到 便携 式 计算 机 ， 处 理 器 也 没有 那些 高 得 离谱 的 功 耗 需 
求 。 而 今天 的 世界 已 发 生 了 巨大 的 变化 。 小 型 化 技术 使 人 们 可 以 制造 出 非常 复杂 的 ， 运 行 速 
度 和 存储 能 力 均 比 过 去 提高 了 很 多 个 量 级 的 、 带 有 高 分 辨 的 率 显示 器 、 能 够 放 在 口袋 或 公文 
包 中 的 便携 式 计算 机 。 这 意味 着 功 耗 已 经 成 为 现在 的 头等 ( first class) 设计 指标 ， 它 也 是 便 
携 式 系统 设计 的 限制 因素 之 一 。 长 的 工作 时 间 成 为 可 便携 性 设计 追求 的 新 目标 。 便 携 式 计算 
机 应 该 可 以 使 用 一 整 天 而 不 需要 充电 一 一 最 新 的 笔记 本 电脑 和 平板 电脑 (比如 iPad) 都 已 经 
可 以 做 到 这 一 点 。 

即使 计算 机 已 经 接 通 了 外 部 电源 ， 功 耗 问题 也 依然 存在 。 一 个 在 单个 硅 片 内 集成 了 超过 
10 亿 晶 体 管 ， 在 4GHz 主 频 下 工作 的 处 理 器 ， 会 在 一 个 狭小 的 空间 内 产生 大 量 的 热量 ， 人 
们 不 得 不 关心 怎样 才能 将 这 些 热量 散 到 系统 之 外 。 实 际 上 ， 多 核 处 理 器 的 出 现 和 发 展 在 很 大 
程度 上 是 因为 车 不 解决 功 耗 问题 ， 处 理 器 的 工作 主 频 很 难 超 过 4GHz。 

Intel 的 高 级 院士 Pawlowski 举 了 一 个 很 好 的 例子 来 说 明 计 算 机 的 发 展 方向 。 他 在 2007 
年 发 表 的 一 篇 关于 医疗 领域 高 性 能 计算 的 文章 中 指出 ，2004 年 的 医学 影像 处 理 需 要 大 约 
1GFlops (每 秒 10° 次 浮 点 操作 ) 的 计算 能 力 。 而 到 了 2010 年 ， 所 需 的 计算 能 力 预计 将 达到 
1TFlops，6 年 间 增 加 了 1000 倍 。 这 种 计算 能 力 需 求 的 增长 是 因为 现在 的 医学 影像 处 理 使 用 
分 辩 率 更 高 的 图 像 ， 更 好 的 信号 处 理 算 法 ， 以 及 为 了 支持 旋转 (改变 视角 ) 而 使 用 数量 更 多 
的 图 像 。 

运动 图 像 的 存储 、 处 理 和 显示 是 最 常见 的 计算 机 应 用 之 一 。 不 和 久 以 前 ， 计 算 机 还 只 能 进 
行 简单 而 有 限 的 图 像 处 理 。 而 现在 ， 即 使 是 最 一 般 的 计算 机 也 能 完成 高 清晰 度 (高 分 辩 率 ) 
运动 图 像 的 常规 存储 和 处 理 。 要 做 到 这 一 点 ， 需 要 在 处 理 器 体系 结构 和 组 成 、 存 储 系统 、 数 
据 传输 总 线 、 面 向 图 像 数据 类 型 的 处 理 (以 及 图 像 压 缩 算法 ) 而 定制 的 专用 指令 集 、 存 储 器 
件 (如 Flash 存储 器 ) 以 及 硬盘 和 发 布 系统 (如 蓝光 光盘 ) 等 方面 取得 重大 进步 。 所 有 这 些 都 
正好 属于 现代 计算 机 体系 结构 课程 的 教学 内 容 。 
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1.1 什么 是 计算 机 系统 体系 结构 


本 章 的 第 一 个 概念 是 计算 机 系统 (computer system)。 媒 体 一 直 以 来 将 一 个 微 处 理 器 
(microprocessor) 或 者 甚至 是 一 块 芯 片 (chip) 称 作 计算 机 系统 。 实 际 上 ， 计 算 机 系统 包括 读 
取 并 执行 程序 的 中 央 处 理 单元 (central processing unit, CPU), RAE REIT AAT A GD i 
及 将 芯片 转换 为 实用 系统 的 其 他 子 系统 。 这 些 子 系统 会 使 CPU 与 显示 需 、 打 印 
等 外 部 设备 之 间 的 通信 变 得 更 而 容易 

读者 会 在 本 书 和 其 他 教材 中 遇 到 计算 机 、CPU、 处 理 器 、 微 处 理 器 和 微机 等 名 词 。 计 
算 机 中 实际 执行 程序 的 部 分 叫 作 CPU， 或 者 更 简单 地 被 称 作 处 理 器 。 微 处 理 器 则 是 在 单个 
硅 片 上 实现 的 CPU。 围 绕 着 微 处 理 器 构建 的 计算 机 被 称 作 微机 。 这 些 术 语 经 常 被 互 换 使 用 ， 
而 且 微 机 一 词 的 使 用 频率 在 不 断 降低 ， 因 为 已 经 没有 必要 再 区 分 哪些 计算 机 拥有 多 个 独立 的 
集成 电路 ， 哪 些 计算 机 上 只 有 微 处 理 器 〈 就 像 Intel Core i7 那样 )。 

管 CPU 是 计算 机 的 核心 ,计算 机 的 性 能 既 取决 于 CPU， 也 取决 于 其 他 子 系 统 的 性 能 。 
如 果 不 能 高 效 地 进行 数据 传输 ， 仅 仅 提高 CPU 的 性 能 是 毫 无 意义 的 。 计 算 机 科学 家 曾 开 玩笑 
说 ， 提 高 微 处 理 器 的 性 能 只 不 过 是 让 CPU 更 早 地 开始 等 待 来 自 存储 器 或 磁盘 驱动 器 的 数据 。 
在 本 书后 面 的 部 分 ， 读 者 将 会 发 现 ， 计 算 机 不 同 组 成 部 分 的 性 能 提升 速度 是 当前 计算 机 系统 设 
计 者 面临 的 主要 问题 ， 因 为 各 个 部 分 的 性 能 提升 速度 并 不 一 致 。 例 如 ， 过 去 几 十 年 中 ， 处理 器 
的 性 能 持续 高 速 增长 ， 而 硬盘 的 性 能 (访问 时 间 ) 在 过 去 30 年 内 几乎 保持 不 变 。 不 过 随 着 固 
ÆA (solid state disk, SSD) 等 半导体 硬盘 开始 取代 机 械 硬 盘 ， 这 种 窒 境 有 可 能 结 
T Ri 描述 了 一 个 简单 的 通用 计算 机 (如 个 人 计算 机 或 工作 站 ) 结构 。 除 了 CPU 外， 图 
中 还 有 一 些 几 乎 所 有 计算 机 中 都 有 的 部 件 。 信 息 ( 即 程序 和 数据 ) 保存 在 存储 器 中 。 为 了 实 
现 不 同 的 目标 ， 真 实 的 计算 机 会 使 用 不 同类 型 的 存储 器 。 图 1-1 中 就 有 Cache、 主 存 、 辅 存 
等 多 个 存储 层次 。 尽 管 图 1-1 中 的 Cache 位 于 CPU 外 ， 目 前 绝 大 多 数 处 理 器 者 区 CPU AR , 
成 了 片上 Cache. 

尽管 每 个 存储 层次 都 可 以 用 来 保存 信息 ， 但 它们 的 工作 方式 各 不 相同 。 一 些 层 次 访问 速 
度 快 但 价格 昂贵 ， 另 一 些 速 度 慢 但 却 合宜 得 多 。 我 们 将 在 后 面 的 章节 中 介绍 各 种 存储 系统 ， 
因为 它们 对 计算 机 系统 的 整体 性 能 而 言 都 非常 重要 。 如 果 不 能 将 程序 存储 在 合适 的 存储 器 
Al, CPU 速度 再 快 也 毫 无 用 处 ; 实际 上 ， 正 是 价格 便宜 的 Flash 存储 器 的 出 现 ， 才 使 MP3 
播放 需 、 数 码 相 机 、 电 子 书 和 
iPad 等 数码 产品 获得 了 巨大 的 主 存 (通常 使 用 
成 功 。 

可 以 这 样 说 ,与 计算 机 的 
其 他 组 成 部 分 (包括 外 部 设备 ) 
相 比 ， 存 储 系统 的 特点 更 加 多 
样 ， 构成 也 更 加 广泛 。Cache . É ， 

是 存放 常用 数据 的 高 速 、 专 a ia 
F 






. Internet 











CD-ROM, 能 够 存放 海量 数据 ， 
价格 却 比 前 两 种 便宜 得 多 。 当 
然 ， 这 里 所 说 的 数据 实际 上 包 Mie MARRAS 
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括 了 程序 和 数据 。 本 书 很 大 一 部 分 篇 幅 都 用 来 讨论 存储 系统 和 令 人 赞叹 的 相关 技术 。 


不 同 的 计算 

如 果 问 我 的 学 生 ,“ 哪 种 计算 机 更 加 精确 ，8 位 的 还 是 32 位 的 ?” 一 些 同学 会 回答 
32 位 计算 机 精度 更 高 。 单 纯 从 计算 角度 而 言 ， 任 意 两 台数 字 计 算 机 在 计算 能 力 方面 没有 
任何 差别 。 当 然 ， 其 中 一 台 可 能 比 另外 一 台 更 谈 或 更 便 信 一 些 ， 但 是 从 解决 的 问题 角度 
它们 是 相同 的 。 | 

如 果 一 台 计 算 机 能 够 模拟 图 灵机 (阿兰 ， 图 灵 发 明 的 一 种 抽象 计算 机 模型 )， 那 它 就 
是 图 灵 完备 的 。 今 天 所 有 的 计算 机 都 是 图 灵 完备 的 ， 这 意味 着 所 有 计算 机 都 能 解决 同样 
一 些 问 题 ， 换 名 话说， 能 由 计算 机 A 解决 的 问题 也 一 定 能 由 计算 机 B 解决 。 

同样 ， 我 们 也 可 以 证 明 ， 如 果 计 算 机 A 能 够 模拟 计算 机 B 的 行为 ， 那 么 在 B 上 执 
行 的 任何 程序 都 可 以 由 A 上 的 模拟 器 来 模拟 执行 。 这 样 看 来 ， 未 来 的 计算 机 也 没有 办 法 
| 解决 那些 现 有 计算 机 解决 不 了 的 问题 。 





TRN See 





图 1-1 中 组 成 计算 机 的 各 个 子 系统 通过 总 , 线 连 接 在 _ 起 ， Habit eR MoE 

个 位 置 传递 到 另外 一 个 位 置 。 现 有 的 一 些 总 线 ， 比 如 PCIe， 本 身 就 是 杂 子 系统 。《 计 
el he 

或 总 线 协议 。 

图 1-1 画 出 了 几 种 不 同 的 总 线 。 例 如 ， 磁 盘 驱 动 器 与 主机 之 间 的 总 线 和 CPU 与 主 存 间 
的 总 线 就 不 相同 。 一 些 计算 机 系统 使 用 总 线 扩 展 接口 或 桥接 技术 ， 以 便 能 够 在 不 同类 型 的 总 
线 间 交换 数据 。 

本 书 的 副标题 特别 适用 于 总 线 。 例 如 PC 机 主板 上 的 PCIe 总 线 用 来 将 高 速 外 设 接 入 计算 
机 ， 而 通过 USB 和 FireWire 总 线 则 可 以 将 从 鼠标 到 数码 摄像 机 等 各 种 各 样 的 慢 速 外 设 与 计算 
机 连接 在 一 起 。 

什么 是 计算 机 ,数字 计算 机 o 

定义 术语 “计算 机 ”时 必须 指明 计算 机 的 类 型 。 数 i SE 
学 家 约翰 ' 冯 ， 诺 依 曼 是 最 早 界定 计算 机 结构 的 人 之 一 ， 
为 了 纪念 他 而 命名 的 冯 ， 诺 依 曼 存 储 程序 数字 计算 机 是 
从 个 人 计算 机 到 手机 等 多 种 系统 的 核心 。 其 他 类 型 的 计 
算 机 还 有 模拟 计算 机 、 神 经 计算 机 、 量 子 计算 机 以 及 生 
化 计算 机 。 它 们 处 理 信息 的 方式 与 存储 程序 计算 机 完全 








不 同 ， 这 超出 了 本 书 的 范围 . 通用 数字 计算 机 。 通 过 改变 程序 ， 这 台 
图 1.2 措 述 了 一 台 接 收 并 处 理 输 和 信息， 产生 输 机 器 可 以 完成 任何 计算 机 都 能 完成 的 任务 


出 结果 的 可 编程 数字 计算 机 。 在 计算 机 术语 里 ， 输 入 图 1-2 通用 计算 机 
(input) 指 用 户 交 给 计算 机 的 信息 ， 输 出 ( output) 指 计算 机 返回 给 用 户 的 信息 。 例如， 飞行 
模拟 器 的 输入 就 是 操纵 杆 的 移动 ， 输 出 是 飞行 员 所 看 到 的 世界 的 视频 显示 


-~ 


冯 “' ore 
移民 到 美国 后 ， 冯 “' 诺 依 枝 将 他 的 名 字 改 为 了 英国 化 的 Johns。 他 也 被 叫 作 Janos, 
匈牙利 语 Johann 的 意思 。 术 语 “ 冯 ， 诺 依 曼 计算 机 ”现在 被 认为 是 有 一 定 争 议 的 ， 因 为 
| 一 些 计算 机 历 赤 学 家 觉得 不 应 将 命名 现代 计算 机 结构 的 荣 蕉 给 对 冯 » 诺 依 曼 一 个 人 。 


“一 = 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 -- 一 一 一 -一 --- 一 一 
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图 1-3 中 的 可 编程 计算 机 接收 两 种 类 型 的 输入 : 它 将 要 处 理 的 数据 ， 以 及 准确 描述 要 如 
何 处 理 输入 数据 的 程序 。 程 序 不 过 是 计算 机 所 执行 的 完成 给 定 任务 的 操作 序列 。 

图 1-2 中 的 计算 机 叫 作 通 用 计算 机 ， 因 为 硬件 ( 即 实际 的 数字 电路 ) 是 按照 程序 的 指示 

完成 范围 相当 广泛 的 工作 。 在 介绍 计算 机 历史 的 时 候 ， 我 们 会 发 现 第 一 台数 字 计 算 机 并 不 是 
通用 计算 机 ， 而 是 通过 硬 连 线 (hardwired) 完成 特定 任务 的 。 硬 连 线 是 指 计算 机 的 功能 (FE 
序 ) 只 能 通过 重新 布线 来 改变 。 

图 1-3 更 加 详细 地 描述 了 数字 计算 机 的 结构 ， 它 可 被 分 为 两 部 分 ， 中 央 处 理 单元 和 存储 
器 系统 。CPU 读 程序 并 完成 程序 指定 的 操作 。 存 储 器 系统 保存 两 类 信息 :经 房 ， 程 序 处 理 
SEENED, 程序 和 数据 并 不 是 非 要 保存 在 相同 的 存储 器 中 。 然 而 ， 大 多 六 计算 机 系统 都 
将 程序 和 数据 保存 在 相同 的 存储 器 系统 内 。 正 如 前 计算 机 系统 
面 所 讲 ， 这 样 的 计算 机 被 称 作 存储 程序 计算 机 。 

计算 机 是 个 黑金 子 5 ， 它 将 信息 从 一 个 位 置 移 到 ==— 

一 个 位 置 ， 并 在 移动 过 程 中 处 理 这 些 信息 。 信 息 
这 个 词 表示 计算 机 中 的 指令 和 数据 。 图 1-3 中 有 两 “ 
条 连接 CPU 和 存储 器 的 信息 传输 通路 。 下 面 一 条 
路 径 用 从 存储 器 到 CPU 的 单 箭头 表示 ， 说 明 计 算 。 cPU 从 主 存 中 读 出 指 ”数据 和 指令 存放 在 


机 的 程序 通过 这 条 路 径 传送 。 CUPRA «SSE Bae 
入 数据 以 及 主 存 中 的 数据 








输出 
CT 














SE, DL FUL (YN ES PEI, Be Twa Se aiti 
能 ， 现 代 高 性 能 计算 机 可 以 一 次 从 存储 器 中 该 出 着 二 条 指令 





器 ， rT TTT A TEADA, a RNE ASE, 


ee : 

计算 机 从 存储 器 中 读 出 指令 并 执行 这 些 指令 ( 即 完成 或 执行 指令 定义 的 动作 )。 执 行 
| 指令 时 ， er of legge 对 数据 进行 操作 ， 将 数据 写 回 存储 器 。 
CD 用 来 存放 数据 的 存储 单元 。 时 k 冲 流 ， 所 有 内 部 操作 者 





图 1-4 描述 了 程序 的 执行 过 程 ， 这 个 过 程 要 比 它 看 起 来 简单。 图 1-4 的 目的 是 展示 如 何 
从 存储 器 中 读 出 一 条 形 如 z=x+Y 的 指令 ,将 其 发 送 给 解释 单元 ， 解 释 单 元 产生 控制 信号 ， 驱 
动 这 条 指令 的 执行 。 在 第 6 章 ， 我 们 将 讨论 如 何 将 指令 转换 为 解释 执行 这 条 指令 所 需 的 动作 
序列 。 

ee eee 将 它们 相 加 ， 然 后 将 和 写 回 存 






储 器 。 CPU 必须 首先 GA) 在 CPU 分 析 或 
解码 这 条 指令 之 后 ， 它 会 从 存储 器 中 读 出 这 条 指令 所 需 的 所 有 数据 。 在 这 个 例子 中 ,第 一 条 


Se 


NED DEE 


O 这 里 相当 滑稽 地 使 用 了 “黑金 子 ” 。 黑 盒子 这 个 术语 用 于 描述 一 个 完成 了 某 项 功能 ， 但 其 内 部 操作 既 不 可 被 
访问 也 不 可 见 的 系统 。 存 储 了 飞机 飞行 数据 的 飞行 数据 记录 仪 也 俗称 为 “ 黑 盒子 ”。 


第 二 条 指令 从 存储 器 


中 读 出 变量 了 的 值 并 保存 在 另 一 个 寄存 器 内 。 然 后 在 CPU 读 出 第 三 条 指令 时 ， 它 会 将 这 两 
个 寄存 器 的 内 容 相 加 ， 并 将 结果 保存 在 第 三 个 寄存 器 中 。 第 四 条 指令 会 将 加 法 的 结果 写 回 存 
储 单 元 Zo 







控制 信号 生成 器 





存储 器 





控制 信号 被 发 送 给 
计算 机 的 各 个 部 分 LOAD X 
LOAD Y 
人 程序 
STORE Z 


STOP 






数据 


图 1-4 执行 一 个 程序 


要 说 一 台 计 算 机 所 做 的 就 是 从 存储 器 中 读数 据 ， 对 数据 进行 计算 《加 、 乘 等 )， 然 后 将 
计算 结果 写 回 存储 器 ， 也 有 一 定 的 道理 。 计 算 机 能 做 的 另外 一 件 事 情 是 测试 数据 〈 即 判断 一 
个 数 是 否 为 0， 它 的 符号 是 正 还 是 负 )， 然 后 根据 测试 结果 从 两 个 候选 的 指令 流 中 选 出 一 个 来 
执行 。 

本 书 的 一 个 重要 主题 是 介绍 现代 计算 机 是 如 何 加 快 图 1-4 中 几 类 操作 的 执行 速度 的 。 在 
第 6 章 ， 我们 还 会 介绍 真正 的 计算 机 如 何在 完成 一 条 指令 之 前 就 开始 执行 一 条 新 的 指令 。 
AMD Phenom II, Intel Xeon 或 Core i7 这 样 的 处 理 器 都 可 以 同时 执行 好 几 条 指令 。 

很 少 有 计算 机 会 像 图 1-3 那样 在 CPU 和 存储 器 之 间 设 置 两 条 独立 的 信息 通路 。 大 多 数 
计算 机 在 CPU 和 存储 器 系统 之 间 仅 有 一 条 信息 通路 ,数据 和 指令 要 轮流 使 用 这 条 通路 。 之 
所 以 在 图 1-3 中 画 出 两 条 通路 ， 是 为 了 强调 存储 器 中 既 保存 了 组 成 程序 的 指令 ， 也 保存 了 程 
序 所 用 的 数据 。 有 的 计算 机 会 将 数据 和 指令 放 在 不 同 的 存储 器 中 (或 者 使 用 不 同 的 总 线 传输 
数据 和 指令 )， 这 种 结构 叫 作 哈佛 体系 结构 (Harvard architecture). 


计算 机 指令 

计算 机 指令 包括 Mov A，B 这样 的 简单 操作 ， 它 将 B 中 的 数据 复制 到 4 处 ， 也 包括 
ADD A,B,C 这 样 的 运算 ， 它 将 如 和 C 相 加 并 把 结果 保存 在 4 Po 计算机 还 能 完成 第 2 章 将 
要 介绍 的 与 (AND)、 或 (OR) 和 非 (NOT) 等 布尔 逻辑 运算 。 条 件 运算 或 流 控 制 指令 是 一 
类 重要 的 计算 机 运算 ， 它 允许 用 户 从 两 条 路 径 (例如 fx=4, then y=5, else y=6) 中 选择 一 
条 执行 。 流 控制 指令 实现 了 诸如 IF…THEN…ELSE 或 REPERAT…UNTIL 等 高 级 语言 的 结构 。 

图 1-4 中 ,访问 存储 器 的 指令 有 LOAD (将 数据 从 存储 器 复制 到 CPU) 和 store (将 数 
HEX CPU 复制 到 存储 器 )。 
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尽管 计算 机 能 够 执行 上 百 种 不 同 的 指令 ,但 下 面 的 6 条 基本 指令 可 以 将 所 有 计算 机 

令 进 行 分 类 。 例 如，ADD 指令 仿 涵 盖 了 所 有 的 教 据 处 理 指令 ， 如 减法 、 乘 法 甚至 返回 人 

| 5 B 的 最 大 值 的 指令 。 计 算 机 设计 时 关注 的 是 设计 一 组 能 够 高 效 完成 计算 的 指令 。 正 如 

我 们 将 要 看 到 的 那样 ， 应 在 增加 越 来 越 多 “聪明 的 ”能 够 完成 各 种 复杂 计算 的 指令 与 增 
加 这 些 捉 令 常 来 的 开销 和 复杂 度 之 间 进 行 平衡 。 


| MOV A,B 将 BB 的 值 复制 到 4; 
LOAD XB 将 存储 单元 的 值 复制 到 寄存 器 4 中 ; 
| STORE A,B 将 寄存 器 B 的 值 复制 到 存储 单元 4 中 ; 
ADD AIB A 与 如 相 加 ， 结 果 保 存 到 4 中; 
TEST A Mix A 的 值 是 否 为 0; 
BEQ Z 车 最 后 一 次 测试 结果 为 TRUE， 执 行 地 址 Z 处 的 代码 ， 否 则 继续 执行 。 


AT EAE Es 如 数字 5, FHREOERE RT ONES ORS 


1.2 体系 结构 和 组 成 


我 们 已 经 建立 起 计算 机 和 系统 这 两 个 概念 ， 我 们 还 必须 单独 定义 术语 体系 结构 。 计 算 
机 体系 结构 含有 结构 (structure) 的 意思 ， 描 述 了 一 些 与 计算 机 组 成 方式 有 关 的 内 容 。 之 所 
以 定义 计算 机 体系 结构 ， 是 因为 不 同 的 用 户 会 从 完全 不 同 的 角度 看 待 计算 机 。 例 如 ， 秘 书 
可 能 会 将 计算 机 视 作 一 个 聪明 的 字 处 理 设 备 ， 而 物理 学 家 可 能 会 将 它 看 作 是 晶体 中 电子 的 
活动 。 


寄存 器 
寄存 器 是 用 来 存放 一 个 单位 的 数据 或 字 a RE 7 寄存 器 通常 用 它 所 保存 数 
据 的 位 数 来 描述 ， 典 型 的 有 8 位 、16 位 、32 位 和 64 位。 未 教材 中 讨论 的 很 多 计算 机 的 
寄存 器 要 么 是 32 位 ， 要 么 是 64 位 。 
寄存 器 和 二 者 的 实际 差别 在 于 ， 寄 存 器 位 于 
i fic det 
CPU 内 ， 它 的 访问 速度 人 





我 们 对 这 两 种 极端 的 观点 都 不 感 兴 计算 机 体系 结 # 构 通常 被 认为 是 程序 员 视角 中 的 
计算 机 。 程 序 员 所 看 到 的 是 计算 机 的 抽象 视图 ， 对 他 们 来 说 ， 计 算 机 的 实际 硬件 和 实现 都 
被 隐藏 起 来 了 。 例 如 ,程序 员 可 以 在 完全 不 清楚 加 法 操作 如 何 进 行 的 情况 下 指示 计算 机 将 4 
与 妃 相 加 。 计 算 机 体系 结构 的 这 个 抽象 视图 现在 通常 被 称 作 指令 集体 系 结 构 ( instruction set 
architecture, ISA ) . 

在 有 关 计 算 机 的 文献 中 ， 术 语 组 成 ( organization) 的 出 现 频率 与 体系 结构 差不多 。 尽 管 
这 两 个 词 有 时 会 互 换 使 用 ,但 它们 却 有 不 同 的 含义 。 计 算 机 组 成 表示 其 体系 结构 的 具体 实 
现 。 软 件 工 程 师 也 许 会 说 计算 机 组 成 是 计算 机 体系 结构 的 实例 化 ( 即 它 将 抽象 变 为 具体 )。 
现在 人 们 通常 会 使 用 术语 微 体系 结构 ( microarchitecture) 而 不 是 组 成 。 从 一 个 日 常生 活 的 例 
子 中 就 可 以 看 出 体系 结构 与 组 成 之 间 的 区 别 。 时 钟 是 报时 工具 ， 它 的 体系 结构 可 被 定义 为 在 
有 刻度 的 表盘 上 转动 指针 。 而 它 的 组 成 却 可 以 是 机 械 式 的 飞轮 或 钟 摆 ， 电 子 式 的 石英 晶体 振 
荡 器 ， 或 者 由 无 线 电波 进行 外 部 控制 。 

时 钟 的 例子 说 明 一 种 给 定 的 体系 结构 可 以 由 不 同 的 组 成 来 实现 。 例 如 ， 在 翻新 一 座 塔 上 
的 古代 时 钟 时 ， 可 以 将 它 的 发 条 更 换 为 电动 马达 ， 而 游客 却 根 本 察觉 不 到 任何 变化 。 


计算 机 上 执行 的 代码 表示 为 二 进 制 1 和 0 组 成 的 事 ,， 被 称 作 机 器 码 (machine code). 
每 种 计算 机 都 只 能 执行 一 种 特定 的 机 器 码 。 eee ADD RO, Time) 叫 作 _ 
汇编 语言 能 够 在 类 型 完全 不 同 的 计算 机 上 运行 ， 与 底层 计算 机 体系 结构 几乎 没有 关系 
的 代码 叫 作 高 级 语言 (比如 C 或 Java)。 在 执行 之 前 ， 高 级 语言 程序 必须 首先 被 编译 为 
计算 机 的 本 地 机 器 码 。 
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同样 ， 微 处 理 器 内 的 32 位 寄存 器 可 以 按照 与 16 位 计算 机 相同 的 方式 实现 ， 如 使 用 16 
位 数据 总 线 ， 以 16 位 为 单位 传输 数据 ， 功 能 单元 也 是 16 位 的 。 如 果 程 序 员 指示 计算 机 将 寄 
存 器 A 中 的 32 位 数据 复制 到 寄存 器 B 中 ， 他 将 要 执行 一 个 32 位 操作 ,但 16 位 计算 机 将 执 
行 两 个 16 位 操作 ， 这 对 程序 员 来 说 是 完全 不 可 见 的 。 按 照 这 个 例子 ， 我 们 可 以 说 一 台 计 算 
机 的 体系 结构 是 32 位 的 ， 但 它 的 组 成 却 是 16 位 的 。 

将 体系 结构 和 实现 完全 分 离 是 错误 的 ， 因 为 二 者 是 相互 影响 的 。 一 种 给 定 的 体系 结构 可 
能 最 适合 采用 蕊 技 术 实现 ， 必 一 种 体系 结构 则 可 能 最 适合 采用 了 技术 实现 ， 即 使 每 种 体系 
结构 都 能 采用 技术 和 了 技术 实现 。 本 书 不 会 深入 讨论 较 低 层次 的 组 成 和 实现 ( 即 门 级 和 电 
路 级 的 计算 机 组 成 )， 这 是 电子 工程 师 关 注 的 事情 。 但 是 ， 我 们 会 讨论 负责 解释 指令 的 控制 
单元 (control unit)， 因 为 它 对 计算 机 体系 结构 的 发 展 影响 很 大 。 








指令 集体 系 结构 包括 : 数据 类 型 (每 个 字 的 位 数 以 及 各 个 位 的 含义 )， 用 来 保存 临时 结 

果 的 寄存 器 ， 指 令 的 类 型 和 格式 ， 以 及 寻 址 方式 (表示 数据 在 存储 器 中 存放 位 置 的 方法 )。 
当 我 们 说 计算 机 体系 结构 描述 了 程序 员 所 看 到 的 计算 机 时 ,会 引起 歧义 。 哪 个 层次 的 程 
序 员 ? 汇编 语言 程序 员 看 到 的 计算 机 与 C 或 Java 等 高 级 语言 程序 员 看 到 的 有 很 大 的 区 别 。 即 
使 都 是 高 级 语言 程序 员 ，C 程序 员 所 看 到 的 也 与 Prolog 或 LISP 程序 员 看 到 的 有 很 大 的 不 同 。 











微 代码 (Microcode) 与 微 处 理 器 无 关 。 微 代码 定义 了 一 组 基本 操作 ( 微 指 令 )， 通 过 
执行 这 些 操作 可 以 解释 执行 机 器 码 。ADD P,Q,R 是 一 条 典型 的 机 器 指令 ,而 微 指 令 可 能 像 
“将 数据 从 寄存 器 了 荆 移 到 总 线 了 上 ”那么 简单 。 如 何 定 义 微 指令 是 芯片 设计 者 的 职责 。 














本 书 将 介绍 寄存 器 级 的 微 处 理 器 体系 结构 ( 即 汇编 语言 程序 员 所 看 到 的 计算 机 )， 既 包 
括 一 些 与 处 理 器 实现 有 关 的 方面 (例如 流水 线 和 Cache)， 也 包括 一 些 与 高 级 语言 有 关 的 方面 
(例如 栈 和 数据 结构 )。 本 书 关注 微 处 理 器 体系 结构 而 不 是 大 型 机 体系 结构 ， 因 为 桌面 计算 机 
和 小 型 机 中 都 有 微 处 理 器 ， 而 大 型 机 越 来 越 多 地 被 用 于 专门 的 应 用 领域 。 现 在 再 谈论 大 型 计 
算 机 也 许 不 合适 ， 因 为 它 属于 价格 便宜 、 体 积 小 的 微机 之 前 的 一 个 时 代 。 我 们 用 术语 “超级 
计算 机 ”(supercomputer) 来 描述 那些 用 于 科学 计算 和 军事 应 用 、 性 能 极其 强大 的 计算 机 ， 它 
们 像 过 去 的 大 型 机 那样 需要 自己 的 机 房 。 


一 致 和 分 歧 一 一 选择 哪 种 方式 

本 书 的 一 个 主题 是 计算 机 体系 结构 是 如 何 受 到 一 致 和 分 歧 这 两 种 力量 影响 的 。 计 算 
Huth BAERS AY He HL pK Fo A, A 20 世纪 80 年 代 紧 凑 且 性 能 高 的 、 与 Intel 和 摩 
托 罗 拉 等 传统 CISC 结构 不 同 的 RISC 处 理 器 的 出 现 ， 就 可 以 看 出 这 一 趋势 

另 一 方面 ， 近 年 来 ， 通 过 引入 更 复杂 、 更 专用 、 面 向 应 用 的 指令 ，RISC 体系 结构 
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(4e ARM) 开始 具有 传统 CISC 处 理 器 的 一 些 特征 。 计 算 机 体系 结构 和 组 成 也 受到 经 济 


| 因素 的 驱动 ， 就 如 同 商场 一 样 一 一 有 些 商 场 只 销售 种 类 比较 少 的 商品 ; 而 另 一 些 商 场 的 


体系 结构 的 联系 可 能 最 为 密切 ) 的 类 RISC 微 体系 结构 实现 的 。 


商品 则 种 类 齐全 。 
同样 ，CISC 体系 结构 内 部 是 采用 极 大 地 依赖 流水 线 技术 (其 体系 结构 特征 与 RISC 


本 书 用 术语 “体系 结构 ( architecture)” 代 表 计 算 机 的 抽象 指令 集体 系 结构 ( 它 的 指令 





集 )， 而 用 术语 “组 成 ( organization)” 代 表 计 算 机 的 实际 硬件 实现 。 然 而 ,“ 组 成 ”一 词 也 
会 被 用 于 描述 完整 的 计算 机 ， 包 括 它 的 CPU、 和 存储器、 总线 以 及 输入 /输出 机 制 。 最 后 ， 我 
们 用 术语 “ 微 体系 结构 (microarchitecture)” 代 表 CPU 的 实现 。Intel 在 其 Pentium 及 后 续 处 
理 器 的 介绍 中 使 用 这 个 词 表 示 CPU 的 实现 ， 因 此 它 变 得 越 来 越 流行 。 显 然 ， 组 成 和 微 体 系 
结构 的 使 用 越 来 越 重合 


”Dasgupta 的 观点 


了 解 其 他 人 对 计算 机 体系 结构 的 看 法 也 是 有 益 的 。20 世纪 80 年 代 未 ，Subrata 
Dasgupta 是 最 先 详 细 探讨 体系 结构 和 组 成 之 间 关 系 的 人 之 一 。 他 将 计算 机 体系 结构 
称 为 计算 机 设计 的 艺术 、 手 艺 以 及 科学 ， 并 且 创 造 了 3 个 词 一 -外 体系 结构 (exo- 


| architecture)、 内 体系 结构 (endo-architecture) 和 微 体 系 结 构 (micro-architecture)， 以 此 


将 计算 机 体系 结构 分 为 3 个 层次 。 

外 体系 结构 是 指 计算 机 体系 结构 较 高 层次 的 方面 ， 如 数据 结构 和 指令 集 。 前 组 exo 
意 为 外 部 的 ， 表 示 汇 编 语言 程序 员 看 到 的 计算 机 抽象 。 内 体系 结构 则 表示 计算 机 的 内 部 
组 成 ， 包 括 计 算 机 基本 单元 的 性 能 ， 各 个 部 件 是 如 何 连 接 的 ， 信 息 流 的 控制 方式 。 也 就 


| 是 说 ， 内 体系 结构 在 寄存 器 、 加 法 器 和 控制 电路 等 功能 部 件 一 级 描述 了 处 理 器 。 


Dasgupta 提出 的 计算 机 体系 结构 的 第 三 个 层次 是 微 体系 结构 ， 它 描述 了 执行 机 器 指 
令 时 必须 完成 的 一 些 动作 (例如 将 数据 从 一 个 寄存 器 复制 到 另 一 个 寄存 器 中 )。 内 体系 结 
构 执 行 的 操作 是 由 微 体系 结构 实现 的 。 例 如 ， 内 体系 结构 只 会 关注 加 法 器 的 功能 ， 而 微 
体系 结构 则 会 关注 ALU 是 如 何 实现 这 些 功能 的 。 因 此 ， 外 体系 结构 是 程序 员 看 计算 机 


| 的 抽象 视图 ， 它 是 由 内 体系 结构 实现 的 ， 而 内 体系 结构 又 是 由 微 体系 结构 通过 执行 微 程 


序 实现 的 。 

我 们 可 以 将 Dasgupta 的 观点 归纳 为 计算 机 可 被 描述 为 不 同 的 抽象 层次 。 外 体系 结构 
为 最 高 层 ， 表 示 程 序 员 所 看 到 的 计算 机 视图 。 内 体系 结构 为 中 间 层 次 ， 从 计算 机 的 组 成 
模块 和 模块 间 的 互 连 等 方面 描述 计算 机 组 成 。 微 体系 结构 (最 低层 次 ) 则 描述 了 如 何在 
门 级 实现 计算 机 的 组 成 模块 ， 这 是 数字 系统 设计 工程 师 的 职责 。 

马萨诸塞 州立 大 学 的 Chip Weams 则 认为 Dasgupta 的 层次 化 观点 已 不 再 适用 ， 他 是 
这 么 解释 的 : 

“这 3 个 层次 并 不 标准 ， 一 部 分 原因 在 于 它们 很 难 区 分 。 指 令 集 结构 / 微 体系 结构 的 
划分 更 容易 解释 -…… 指 令 集 体系 结构 是 体系 结构 与 程序 员 之 间 的 合约 ， 它 向 程序 员 解 释 
了 计算 机 是 如 何 保证 程序 正确 执行 的 。 微 体系 结构 是 这 一 合约 的 内 部 实现 ， 但 不 同 的 微 
体系 结构 会 带 来 不 同 的 性 能 。 如 果 没 有 必要 的 内 体系 结构 信息 (如 寄存 器 、 存 储 器 、 用 
户 / 超 级 用 户 、 自 陷 、 中 断 、 分 支 标志 ， 等 等 )， 外 体系 结构 无 法 完整 地 描述 一 台 计 算 





Bu, Ri ( 微 体系 结构 ) 的 常用 含义 涵盖 了 Dasgupta 对 微 体系 结构 的 定义 以 及 内 体系 结 
构 的 很 大 一 部 分 。” 


1.2.1 计算 机 系统 和 技术 

图 1-5 指出 了 一 些 能 够 影响 计算 机 设计 和 性 能 的 因素 。 标 有 “技术 ”的 方 框 说 明了 制造 
计算 机 组 件 的 工艺 的 重要 性 (例如 ， 芯 片 制造 技术 决定 了 芯片 的 速度 和 功 耗 )。 计 算 机 的 束 
度 在 计算 机 系统 其 余部 分 的 设计 中 成 了 主角 ， 因 为 将 快速 处 理 器 和 慢 速 存储 器 放 在 一 起 使 用 
是 毫 无 意义 的 。 同 样 ， 功 耗 决定 了 计算 机 的 使 用 范围 (是 位 置 固定 的 还 是 可 移动 的 )。 

20 世纪 70 年 代 以 来 ， 半 导体 技术 一 直 按照 摩尔 定律 的 预测 发 展 。 摩 尔 定律 是 一 个 经 验 
观察 结果 ， 它 指出 ， 芯 片 的 集成 度 每 18 个 月 翻 一 番 。 这 个 定律 使 得 芯片 制造 商 得 以 在 所 需 
的 制造 技术 还 不 存在 的 情况 下 就 开始 设计 未 来 的 处 理 器 产品 。 摩 尔 定律 一 词 被 计算 机 论文 广 
泛 引 用 ， 即 使 一 些 引用 已 经 偏离 了 它 的 本 意 ( 即 芯片 的 集成 度 每 18 Sa). A, E 
尔 定律 也 意味 着 处 理 器 的 性 能 每 18 个 月 翻 一 番 。 l 

图 1-5 中 标 有 “应 用 ”的 方 框 表示 计算 机 的 最 终 应 用 。 一 些 计算 机 被 用 于 汽车 的 嵌入 式 
控制 系统 ， 一 些 被 用 于 游戏 机 ， 还 有 一 些 用 于 家 庭 或 办 公 室 。 如 果 不 同 的 计算 机 所 做 的 事情 
也 不 相同 ， 那 么 有 理由 认为 目标 应 用 对 计算 机 体系 
结构 和 组 成 的 设计 有 一 定 的 影响 。 

图 1-5 中 标 有 “工具 ”的 方 框 说 明 一 些 计算 机 
之 外 的 因素 也 会 影响 计算 机 设计 。 计 算 机 已 被 用 于 
设计 计算 机 。 计 算 机 工具 中 有 很 多 软件 产品 ， 从 电 
路 级 的 硬件 设计 工具 ， 到 计算 机 模拟 程序 ， 到 被 用 
来 比较 不 同 计算 机 速度 的 基准 程序 或 测试 用 例 . 

最 先进 的 计算 机 使 用 了 最 新 的 制造 技术 。 图 1-6 图 1-5 影响 计算 机 设计 的 一 些 因素 
列 出 了 计算 机 设计 者 感 兴 趣 的 一 些 技 术 。 设 备 技术 
决定 了 计算 机 的 速度 及 其 存储 系统 的 容量 ， 包 括 那 
些 用 于 制造 处 理 器 和 主 存 的 半导体 技术 ， 制 造 硬盘 
的 磁 技 术 ， 用 于 CD-ROM, DVD 和 蓝光 光碟 的 光 技 
术 ， 以 及 网 络 连接 技术 。 

图 1-6 中 还 包括 计算 机 总 线 技术 ， 因 为 它 的 结 计算 机 技术 
构 、 组 成 和 控制 均 对 计算 机 性 能 有 很 大 影响 。 图 中 | 
还 列 出 了 外 设 (如 调制 解 调 器 、 键 盘 、 打 印 机 和 显 
示 系 统 ) 与 应 用 (如 桌 上 排版 、 图 形 和 多 媒体 ) 等 技 
术 ， 因 为 它们 都 会 影响 计算 机 系统 的 设计 。 


1.2.2 计算 机 体系 结构 在 计算 机 科学 中 的 地 位 

计算 机 科学 专业 的 一 些 学 生 毕 业 后 会 在 工业 界 工作 ， 与 数据 库 、 网 络 、Web 设计 、 视 频 
后 期 制作 或 安全 计算 机 软件 打交道 。 即 使 只 有 少数 毕业 生 会 从 事 计 算 机 系统 设计 工作 ， 也 不 
能 将 计算 机 同 计算 机 科学 分 开 ， 就 像 不 能 将 飞行 员 同 空气 动力 学 和 喷气 式 发 动机 分 开 一 样 。 
尽管 飞行 员 在 大 多 数 时 候 不 需要 了 解 空气 动力 学 或 发 动机 原理 ， 但 当 发 生 故 障 或 情况 明显 反 








外 设 
图 1-6 计算 机 技术 
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常 时 ， 他 会 去 寻找 最 有 用 的 知识 。 

计算 机 体系 结构 课程 会 概述 计算 机 是 如 何 工 作 的 ， 计 算 机 能 做 什么 ， 并 告诉 学 生 们 一 台 
典型 的 存储 程序 计算 机 是 如 何 运 转 的 。 一 门 好 的 课程 应 该 突出 设计 者 今天 所 面临 的 重要 问 
题 ， 并 为 学 生 提供 进行 研究 所 需 的 工具 。 而 且 ， 理 解 计算 机 工作 原理 的 学 生 能 够 更 好 地 适应 
各 种 要 求 。 例 如 ， 理 解 了 Cache td FE FF AE BGR AL BHR ii li 技术 编写 出 速度 更 快 的 
程序 。 
”计算 机 是 计算 机 科学 的 心脏 一 一 没有 计算 机 ， 计 算 机 科学 只 能 作为 理论 数学 的 一 个 分 支 。 
学 生 不 应 仅仅 将 计算 机 视 作 一 个 被 施 了 魔法 的 能 够 执行 程序 的 黑 盒 子 。 就 像 哲 学 一 样 ， 为 什 
么 说 计算 机 体系 结构 仍然 与 计算 机 科学 专业 的 所 有 学 生 和 从 业者 有 关 ， 也 是 有 具体 原因 的 。 

理解 计算 机 体系 结构 对 从 事 计算 机 领域 的 工作 具有 重要 帮助 。 假 设 一 名 毕业 生 进 入 工业 
界 并 被 要 求 为 某 大 型 机 构 选择 一 台 性 能 价格 比 最 高 的 计算 机 。 理 解 计算 机 的 各 个 组 成 部 分 对 
总 体 性 能 的 影响 就 非常 重要 。 例 如 ， 花 30 美元 将 Cache 容量 翻 倍 ， 或 者 花 60 美元 将 主 频 提 
高 到 200M， 哪 个 对 性 能 的 影响 大 呢 ? 

计算 机 体系 结构 不 能 完全 与 软件 分 离 。 使 用 处 理 器 最 多 的 并 不 是 PC 机 或 工作 站 ， 而 是 
MP3 播放 器 和 手机 那样 的 炭 入 式 应 用 。 多 处 理 器 和 实时 系统 的 设计 者 必须 理解 商用 处 理 器 
的 基本 体系 结构 概念 和 实现 约束 。 一 些 开 发 汽车 电子 点 火 系统 的 人 员 可 能 会 使 用 C 语言 
编程 ， 但 他 们 也 许 需 要 使 用 一 个 能 够 显示 引擎 中 发 生 的 事件 与 机 器 代码 执行 之 间 关系 的 逻辑 
分 析 器 。 

学 习 计算 机 体系 结构 的 另外 一 个 原因 在 于 它 支撑 了 计算 机 科学 课程 体系 中 其 他 领域 的 许 
多 重要 观点 。 对 计算 机 体系 结构 的 理解 会 帮助 学 生 通 过 一 些 反 复出 现 的 主题 理解 计算 机 科学 
其 他 领域 中 的 概念 。 例 如 ， 学 习 计 算 机 为 高 级 语言 提供 的 体系 结构 支持 可 以 巩固 对 程序 设计 
语言 和 编译 器 等 课程 的 学 习 。 第 4 章 我 们 将 介绍 底层 体系 结构 对 C 等 语言 的 栈 帧 和 参数 传 
递 的 支持 。 同 样 ， 学 习 计 算 机 总 线 设计 也 会 涉及 诸如 公平 vs 优先 级 等 重要 内 容 ， 这 些 也 会 
出 现在 操作 系统 课程 中 。 





时 钟 
我 们 需要 定义 术语 “时 钟 。 绝 大 多 = 一 个 时 钟 ， 用 以 生成 连续 


| 
的 (所 隔 回 入 的 电 脉冲 流 。 之 所 以 被 称 作 时 钟 ， 是 因为 可 用 这 些 电 脉冲 来 计时 或 确定 计算 机 
内 所 有 事件 的 顺序 。 例 如 ， 某 处 理 器 可 能 会 在 每 个 时 钟 脉冲 到 来 时 执行 一 条 新 的 
| 时 钟 可 用 它 的 重复 速率 或 频率 来 定义 。 计 算 机 的 典型 时 钟 频率 即 范围 在 1MHz 至 
| 4.5GHz 之 间 。 时 钟 也 可 以 用 时 钟 脉 冲 的 宽度 或 持续 时 间 来 定义 ， 即 频率 的 倒数 f= 
| 1/T)。 例如， 一 个 1MHz 时 钟 信号 的 持续 时 间 为 hs，1GHz 时 钟 信 号 的 持续 时 间 为 
| 1x10 s 或 lns。 一 个 5GHz 时 钟 信号 的 周期 为 200ps (ps= 皮 秒 )。 光 在 200ps 内 大 约 传 
| 接 2 ES, 

| 事件 由 时 钟 信号 触发 的 数字 电路 被 称 作 同步 的 ， 因 为 它们 由 时 钟 信 号 来 同步 。 有些 
事件 则 是 异步 的 ， 因 为 它们 可 以 在 任何 时 间 发 生 。 例 如 ， 如 果 移 动 一 下 鼠标 ， 它 会 向 计 
| FRR ME, REDRG EH. KE, HEMT EEA Hm AAS a 
| 态 ， 这 是 一 个 同步 事件 。 arb, We PAON 
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按照 基本 原理 解决 问题 

我 曾 告诉 我 的 学 生 们 一 个 真实 的 故事 一 一 一 个 飞行 员 仅 靠 使 用 所 有 已 获得 的 信息 就 
解决 了 一 个 新 的 问题 ， 以 此 来 说 明理 解 底层 基本 原理 的 重要 性 。 一 架 塞 斯 纳 轻 型 飞机 在 
太平 洋 上 绝望 地 迷失 了 方向 ,, 飞行 员 显然 要 葬身 在 这 著名 的 水 莫 中 。 塞 斯 纳 上 没有 任何 
导航 设备 。 太 阳 就 快 落 山 了 ， 塞 斯 纳 很 有 可 能 附 入 太平 洋 并 且 飞 行 员 几乎 没有 机 会 生 
还 。 塞 斯 纳 的 飞行 员 只 有 一 部 距离 为 200 英里 9 的 VHF (WIE) 无 线 电 以 及 一 个 磁 罗 盘 。 
| 一 架 新 西 兰 航空 的 DC10 飞机 收 到 了 他 的 求救 呼号 ，DC10 的 机 长 决定 在 没有 任何 明显 
| 定位 方法 的 条 件 下 寻找 这 架 轻 型 飞机 。 

此 时 ,我 问 我 的 学 生 们 ,“ 你 们 认为 DC10 的 机 长 会 怎么 做 ?” 结 果 总 是 一 样 ， 学 生 
们 毫 无 头绪 ; 即便 是 飞行 员 也 不 曾 学 习 过 在 这 种 情形 下 应 该 做 什么 。DC10 的 机 长 调整 
了 飞机 的 方向 ， 使 其 面向 太阳 ， 并 让 失 联 飞机 的 飞行 员 也 这 样 做 。 这 意味 着 塞 斯 纳 处 于 
DC10 的 南边 ， 但 这 却 不 能 告诉 DC10 的 机 长 塞 斯 纳 究竟 是 在 它 的 东边 还 是 西边 。 因 此 ， 
DC10 让 塞 斯 纳 的 飞行 员 伸 出 手 ， 说 明太 阳 在 地 平 线 上 几 个 指头 的 位 置 。DC10 的 机 长 测 
出 太阳 在 地 平 线 上 两 指 的 位 置 ， 而 塞 斯 纳 的 飞行 员 则 看 见 太阳 在 地 平 线 上 四 指 的 位 置 。 
你 可 以 这 样 想 ， 太 阳 越 高 ， 就 距离 中 午 越 近 ， 因 此 DC10 所 在 地 的 时 间 晚 于 塞 斯 纳 所 在 
地 的 。 这 意味 着 塞 斯 纳 在 DC10 的 西边 。 

现在 两 架 飞机 的 相对 位 置 已 经 确定 了 ，DC10 的 飞行 员 向 塞 斯 纳 的 方向 飞行 ， 并 记 
录 下 塞 斯 纳 的 无 线 电 开始 失效 的 位 置 。 下 图 表明 ， 沿 着 一 条 直线 飞行 ，DC10 可 以 确定 
圆 上 的 一 条 统 ， 其 半径 为 塞 斯 纳 的 信号 发 送 距离 ， 即 200 英里 。DC10 沿 着 一 条 直线 飞 
行 ， 其 第 一 次 与 最 后 一 次 接收 到 信号 的 点 确定 了 这 条 弦 。 然 后 DC10 向 回 飞 ， 飞 到 弦 的 
中 央 ， 然 后 右 转 90。 沿 着 圆 的 直径 继续 飞行 。 采 用 这 种 方法 ， 它 找到 塞 斯 纳 并 将 其 护送 


ot lhe 最 后 一 次 DC10 的 
我 之 所 以 使 用 这 个 例子 是 因为 它 。 联络 的 位 置 飞行 路 线 


很 有 趣 ， 没 有 任何 航空 知识 的 学 生 也 
| 可 以 理解 ， 并 且 它 展示 了 纯粹 的 人 类 
智慧 。 我 试图 表达 的 观点 是 ， 通 过 理 
解 其 职业 的 各 休 方 面 并 思考 “异常 情 
况 " ， 他 们 能 比 那些 对 世界 缺乏 深入 了 
解 的 人 更 好 地 解决 现实 世界 中 的 问题 。 











二 失 联 的 飞机 






塞 斯 纳 飞机 
发 射 器 的 信号 范围 





1.3 计算 机 的 发 展 


计算 机 的 发 展 历史 丰富 而 复杂 ， 远 比 许多 人 想象 得 久远 。 计 算 机 的 发 展 历史 告诉 我 们 技 
术 是 如 何 发 展 的 ， 并 使 我 们 理解 那些 推动 计算 机 发 展 的 力量 。 今 天 的 计算 机 是 一 条 受到 奇 思 
妙 想 、 商 业 考量 以 及 良好 工程 实践 共同 影响 的 发 展 道路 的 产物 。 计 算 机 的 历史 很 悠久 ， 并 且 
还 将 朝 着 未 来 走 去 。 

了 解 计算 机 的 发 展 历史 是 非常 重要 的 ， 因 为 要 想 充 分 利用 今天 的 资源 ， 我 们 必须 了 解 过 
去 的 成 功 与 失败 。 例如， 个 人 计算 机 发 展 中 的 角色 向 后 兼容 就 是 从 计算 机 发 展 历程 中 获得 
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的 一 条 重要 经 验 。 向 后 兼容 既 指 为 了 使 用 户 能 够 容易 地 升级 计算 机 ， 需 要 新 技术 与 老 技术 兼 
容 ， 也 指 未 来 的 计算 机 需要 与 现 有 的 大 量 代 码 兼容 。 

而 且 ， 随 着 技术 的 进步 ， 一 些 已 经 出 现在 过 去 却 只 有 被 抛弃 的 想法 在 未 来 可 能 更 加 可 
行 。 我 认为 从 普遍 的 计算 机 发 展 历史 开始 介绍 可 能 是 个 好 办 法 。 由 于 一 些 学 生 可 能 会 觉得 大 
段 历史 很 难 消化 ， 本 章 将 介绍 计算 机 发 展 历程 中 一 些 重 要 的 里 程 碑 事件 ， 本 书后 面 还 将 补充 
更 为 详细 的 介绍 。 


1.3.1 机 械 计算 机 

人 类 是 会 计算 的 生物 。 穴 居 人 发 明 数学 也 许 不 是 为 了 在 湿 冷 的 天 气 里 玩 数 独 游 戏 ， 而 是 
为 了 丈量 土地 、 建 造 房屋 和 报税 。 岁 马 人 将 鹅卵石 放 在 小 托盘 上 表示 数字 。 后 来 ， 他 们 沿 着 
线 滑 动 鹅卵石 辅助 进行 加 法 或 减法 ， 从 而 完成 计算 。 我 甚至 还 参观 过 中 亚 的 一 些 商店 ， 那 里 
的 人 们 用 算盘 快速 地 进行 计算 。 。 

1642 年 ， 法 国 数学 家 布 莱 士 : 帕斯卡 ( Blaise Pascal) 设计 了 一 个 原始 的 机 械 加 减 
法 计算 装置 ， 能 够 借助 发 条 完成 加 减法 。1694 年 ， 德 国 数学 家 弗 里 德 . 威廉 . 莱 布 尼 获 
( Gottfried wilhelm Leibnite) 制作 了 一 台 复杂 的 机 械 计 算 器 ， 能 够 完成 加 减 乘除 运算 。 这 些 
设备 都 不 能 称 作 现代 意义 上 的 计算 机 ， 因 为 它们 都 是 不 可 编程 的 。 

可 编程 这 个 概念 产生 于 工业 革命 时 期 ， 出 于 工业 化 控制 的 需要 。1801 年 ， 人 们 发 明了 
提花 织 机 ， 能 够 自动 地 将 预先 设计 好 的 图 案 织 在 布 上 一 一 以 前 这 一 工作 只 能 由 熟练 的 工人 完 
成 。 提 花 织 机 使 用 穿孔 的 木 制 卡片 控制 织 在 纺织 品 上 的 图 案 ， 卡 片上 的 一 个 位 置 上 有 没有 洞 
决定 水 平方 向 的 线 是 在 垂直 方向 的 线 之 前 还 是 之 后 。 每 个 打 了 孔 的 卡片 就 是 一 个 程序 ， 因 为 
每 个 孔 的 图 案 指 定 了 一 个 唯一 的 操作 序列 。 虽 然 是 由 这 些 操作 在 布 上 织 出 图 案 ， 但 一 些 人 不 
可 避免 地 会 认为 这 些 操作 可 以 看 作 数学 计算 。 


| 模拟 控制 一 节 速 器 
自动 控制 在 提花 织 机 的 穿孔 木片 之 前 就 出 现 了 。 蒸 汽机 是 工业 革命 最 早 的 机 器 ， 它 
为 煤矿 、 工 厂 里 的 织 布 机 以 及 各 种 各 样 的 交通 工具 提供 动力 。 燕 汽机 的 速度 受到 进入 汽 
| 向 蒸汽 量 的 控制 。 在 高 负荷 速度 下 降 时 打开 阀门 ， 而 在 负荷 降低 、 速 度 增 加 时 关闭 闪 
| 门 ， 这 样 就 可 以 控制 茹 汽机 的 功率 。 但 是 ， 这 种 方法 不 容易 不 可 靠 ,， 也 不 安全 。 
| Ai + 瓦特 (James Watt) 设计 了 一 种 自动 
控制 装置 ， 能 够 在 负载 变化 时 保持 蒸汽 机 的 速度 
| 不 变 。 这 种 模拟 速度 控制 器 极为 精巧 。 它 有 一 个 
重 直 的 主轴 ， 在 机 器 的 控制 下 旋转 。 主 轴 有 一 条 
水 平 臂 ， 伸 出 两 个 很 重 的 金属 球 挂 在 枢 轴 上 。 当 
| 主轴 旋转 时 ， 金 属 球 向 外 摆 出 一 一 旋转 得 越 快 ， 
| 向 外 摆动 越 大 。 挂 着 金属 球 的 水 平 辟 控 制 着 蒸汽 
流量 。 如 果 速 度 下降 ， 人 金属 球 向 内 移动 ， 流 量 增 
大 。 如 果 人 金属 球 向 外 移动 ， 蒸 汽 流量 减少 。 这 样 ， 
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© 1960 年 ， 亚 瑟 ' 查理 斯 ， 克拉克 发 表 了 一 篇 名 为 《 Into the Comet 》 的 科幻 小 说 ， 小 说 里 一 盘 调 查 彗 星 的 飞 
船 由 于 计算 机 电源 故障 无 法 返航 。 飞 船上 的 一 位 日 本 新 闻 记 者 想起 他 小 时 后 曾 用 过 的 算盘 ， 船 员 用 算盘 解 出 
了 返航 所 需 的 方程 。 





速度 将 维持 在 一 个 均衡 点 上 。 
瓦特 节 速 器 的 工作 原理 与 现在 控制 飞机 的 自动 着 陆 系 统 的 原理 完全 相同 。 


19 世纪 早期 ， 为 了 构建 导航 所 需 的 表格 ， 人 们 确实 产生 了 对 计算 机 的 需求 。 计 算 机 在 
19 世纪 也 的 确 出 现 过 。 那 时 候 ,“ 计 算 机 ”就 是 一 个 专门 雇 来 的 ， 完 成 诸如 三 角 函 数 等 数学 
计算 的 人 。1882 年 ， 查 尔 斯 . 巴 贝 奇 ( Charles Babbage) 在 英格兰 设计 了 一 台 叫 作 差 分 机 
(difference engine) 的 计算 装 署 ， 能 够 自动 地 计算 构造 数学 表 所 需 的 多 项 式 的 值 。 巴 贝 奇 没 
有 完成 他 的 差分 机 ，1855 年 Per Georg Scheutz 在 瑞典 制造 出 差分 机 。 

巴 贝 奇 设计 的 机 器 叫 作 分 析 机 (analytical engine)， 在 1871 年 巴 贝 奇 去 世 之 前 ， 他 只 来 
得 及 制作 出 其 中 的 一 部 分 ， 以 测试 他 的 概念 是 否 可 行 。 分 析 机 是 一 个 完全 的 机 械 装 置 ， 拥 有 
完成 计算 的 处 理 单元 , 输入 和 输出 数据 的 手段 ， 以 及 一 个 基于 穿孔 木片 的 存储 器 能 够 保存 数 
据 和 程序 。 

巴 贝 奇 分 析 机 在 计算 机 发 展 史上 具有 非常 重要 的 地 位 ， 因 为 它 在 电子 时 代 之 前 很 入 就 设 
想 了 计算 机 ， 而 且 一 些 早期 的 计算 机 先驱 都 受到 了 巴 贝 奇 工作 的 启迪 ( 男 一 些 并 不 了 解 巴 由 
奇 的 工作 ， 因 此 他 们 重新 发 明了 计算 机 )。 实 际 上 ,一些 人 认为 巴 贝 奇 分 析 机 比 20 世纪 40 
年 代 的 早期 电子 计算 机 更 先进 ， 更 加 接近 现代 计算 机 。 

奥 古 斯 塔 . 阿达 : 4 (Augusta Ada King) 是 一 位 英国 作家 、 数 学 家 ， 她 曾 与 巴 贝 奇 一 
起 制作 分 析 机 。1842 年 ， 她 翻译 了 意大利 数学 家 路 易 吉 “' 蒙 博 ( Luigi Menabrea) 所 撰写 的 
关于 分 析 机 的 备忘录 。 作 为 这 一 工作 的 一 部 分 ， 她 重 写 了 包括 用 分 析 机 计算 伯 努 利 数 的 一 系 
列 注释 。 由 于 这 一 工作 ， 阿 达 通 常 被 认为 是 编写 计算 机 程序 的 第 一 人 。 阿 达 之 后 经 过 大 约 
100 年 的 技术 进步 ， 人 们 才能 真正 地 编写 和 运行 程序 。 





差分 机 的 原理 
巴 贝 奇 的 差分 机 使 用 有 限 差 分 计算 形 如 aoxtajx'+ayx +… 的 多 项 式 。 下 面 的 表格 描 
| 述 了 如 何 使 用 有 限 差 分 构造 整数 的 平方 表 而 无 需 进 行 乘法 的 方法 。 表 的 第 一 列 为 自然 数 
| 1，2，3，…， 第 二 列 为 这 些 数 的 平方 ( 即 1，4，9,，… )， 第 3 列 是 第 2 列 中 两 个 相 邻 
数 的 一 阶 差 分 。 例 如 ， 该 列 的 第 一 个 值 为 4 一 1=3， 第 二 个 值 为 9 一 4=5， 依 次 类 推 。 最 
后 一 列 是 相 领 的 两 个 一 阶 差分 的 二 阶 差 分 。 正 如 读者 所 看 到 的 ， 二 阶 差分 总 是 2。 

可 以 利用 有 限 差分 计算 8 的 值 。 我 们 按照 与 上 面相 反 的 顺序 从 二 阶 差分 开始 反 推 出 
结果 。 如 果 二 阶 差分 为 2， 则 下 一 个 (7 之 后 的 ) 一 阶 差分 为 13+2=15。 这 样 ，8 的 值 
就 是 了 的 值 加 上 这 个 一 阶 差分 ( 即 49+15=64 )。 我 们 不 用 乘法 就 得 到 了 8 的 值 。 这 一 
方法 可 以 扩展 ， 用 来 计算 其 他 数学 函数 。 


二 阶 差分 
i 
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1.3.2 机电 式 计算 机 

19 世纪 末期 电报 和 电话 的 发 展 导致 了 自动 电话 交换 机 和 通信 网络 的 出 现 。 电 话 交 换 装 
置 使 用 一 种 叫 作 继电器 的 机 电 开 关 ， 它 很 像 今天 的 二 进 制 逻辑 开关 元 件 ， 可 以 用 来 制造 机 电 
式 计算 机 。 术 语 机 电 ( electromechanical) 指 那些 有 活动 件 但 却 由 电 控 制 的 零件 。 例 如 ， 继 
电器 利用 线圈 磁化 铁 芯 从 而 控制 开关 。 

1867 年 发 明 的 打字 机 和 1879 年 发 明 的 穿孔 制 表 机 (穿孔 卡片 输入 机 ) 都 促进 了 机 电 式 
计算 机 的 发 展 。 机 电 式 计算 机 是 连接 机 械 时 代 与 以 真空 管 、 唱 体 管 和 集成 电路 为 代表 的 电子 
时 代 的 纽带 。 一 些 人 将 康 拉 德 . 楚 泽 (Konrad Zuse) 视 作 电子 计算 机 的 发 明 者 。20 世纪 40 
年 代 他 在 德国 制造 出 自己 设计 的 计算 机 ， 在 第 二 次 世界 大 战 期 间 该 计算 机 用 来 设计 飞机 。 不 
过 他 的 大 部 分 工作 都 毁 于 盟 军 艇 炸 ， 在 很 长 一 段 时 间 里 ， 楚 泽 的 工作 都 不 为 计算 机 界 所 知 。 
楚 泽 的 计算 机 是 第 一 台 可 编程 计算 机 ;而 同时 代 的 其 他 机 器 都 不 是 软件 可 编程 的 ， 只 能 算 作 
是 自动 计算 器 。 楚 泽 还 设计 了 世界 上 第 一 种 程序 设计 语言 ， 叫 作 Plankalkiil。 

1944 年 ， 为 了 计算 炮弹 轨迹 ， 霍 华 德 . 艾 肯 (Howard Aiken) 在 哈佛 大 学 设计 了 马克 1 
号 机 电 式 计算 机 。 马 克 1 号 是 一 台 早 期 的 可 编程 电子 计算 器 ， 但 不 支持 条 件 操作 ， 因 此 不 能 
算 作 是 今天 意义 上 的 计算 机 。 


1.3.3 早期 的 电子 计算 机 

直到 真空 管 放 大 器 取代 了 速度 极 慢 的 继电器 ， 高 速 、 自 动 的 计算 才 成 为 可 能 。1937 
年 ~ 1942 46, “yi + 文 森 特 ' 阿 塔 那 索 夫 (John V. Atanasoff) 制造 出 第 一 台电 子 计 算 机 
(ABC)， 用 于 解 线性 方程 。1944 年 制造 的 巨 像 计算 机 (Colossus) 是 另 一 台 早 期 计算 机 ， 它 
安放 于 布 菜 切 利 园 ， 二 战 期 间 用 来 破译 德军 的 恩 格 玛 密 文 。 巨 像 计算 机 使 用 真空 管 ， 是 一 台 
真正 的 电子 计算 机 ， 但 它 不 能 存储 程序 ， 因 而 只 能 完成 专门 的 任务 。 

1945 46, J. ZAA] (J. Mauchly) 和 了 丁 埃 克 特 (J. Eckert) 设计 了 ENIAC， 一 台 能 够 处 
理 10 位 10 进 制 数 的 真空 管 计算 机 ， 但 它 不 能 像 今天 我 们 编写 程序 那样 编程 。ENIAC 只 能 
执行 预定 的 操作 ， 操 作 信息 通过 硬 连 线 发 送 到 电路 中 。 即 使 使 用 了 接线 电缆 和 开关 ，ENIAC 
的 编程 也 只 能 通过 重新 连 线 完 成 。 


| 巨 像 计算 机 ， 

英国 于 1943 年 制造 的 巨 像 计算 机 是 最 不 为 人 所 知 的 早期 计算 机 之 一 ， 也 是 “世界 
| 第 一 台 计 算 机 ”名 号 的 竞争 者 之 一 。 其 默默 无 闻 的 主要 原因 在 于 它 的 所 有 成 品 都 被 英国 
政府 销毁 了 ， 并 被 列 为 官方 秘密 ， 直 到 1975 年 才 被 解密 。 

巨 像 计算 机 是 一 台 用 晶体 管 设计 的 专用 电子 数字 计算 机 ， 二 战 期 间 用 于 破译 德军 密 
码 。 汤 米 ， 佛 劳 斯 (Terry Flowers) 是 巨 像 计算 机 的 主要 设计 人 员 ， 他 曾 从 事 电话 交换 网 
BiG | 

尽管 巨 像 计算 机 有 一 些 通 用 数字 计算 机 的 特点 ， 但 它 只 能 通过 开关 和 连 线 从 外 部 
编程 。 





埃 克 特 和 莫 奇 利 还 设计 了 一 台 更 先进 的 计算 机 一 一 EDVAC， 上 有 具有 存储 程序 的 特征 。 在 
英格兰 ， 曼 彻 斯 特大 学 的 研究 人 员 于 1948 年 设计 出 世界 上 第 一 台 可 操作 的 存储 程序 计算 
机 一 一 曼彻斯特 宝宝 。 存 储 程序 或 冯 ' 诺 依 曼 计算 机 是 今天 的 计算 机 的 基础 ,其 特点 是 








将 指令 和 数据 都 保存 在 存储 器 中 。Ferranti 公司 随后 对 曼彻斯特 宝宝 进行 了 改进 ， 设 计 出 
EDSAC 一 一 欧洲 第 一 台 存储 程序 计算 机 。 

AT&T 贝尔 实验 室 在 1948 年 发 明了 晶体 管 ， 之 后 发 展 出 了 半导体 ， 它 在 功能 上 与 真空 
管 等 效 ， 但 体积 更 小 ， 功 耗 更 低 。 唱 体 管 的 发 明 ， 使 将 多 个 晶体 管 放 在 一 块 硅 片上 构成 一 个 
完整 的 电路 成 为 可 能 。 

到 20 世纪 60 年 代 中 期 ,， IBM 设计 出 System/360 体系 结构 ， 在 从 商用 的 小 型 机 到 科学 
计算 的 大 型 机 的 产品 线 上 实现 了 兼容 和 互 操作 性 。 正 是 IBM System/360 导致 了 计算 机 体系 
结构 这 一 概念 的 出 现 ( 即 指令 集体 系 结构 )。 


1.3.4 微机 和 PC 革命 


大 型 机 体积 庞大 ， 价 格 昂贵 ， 只 能 由 大 型 组 织 机 构 购 买 ， 并 需要 一 个 专门 的 团队 来 操作 
它 。 集 成 电路 技术 为 微型 计算 机 (如 DEC 公司 制造 的 PDP-8 ) 的 出 现 铺 平 了 道路 。20 世纪 
70 年 代 ， 大 学 的 系 或 小 型 组 织 机 构 都 能 买 得 起 并 运行 一 台 小 型 机 (微机 ) 了 。 

微机 是 向 前 发 展 的 自然 的 一 步 。 集 成 度 的 提高 使 得 人 们 可 以 将 计算 机 的 所 有 部 件 〈 除 了 
外 设 和 存储 器 ) 集成 到 一 块 芯片 上 。 到 20 世纪 70 年 代 ，Intel 公司 和 摩托 罗拉 公司 都 发 布 了 
8 位 微 处 理 器 。 第 一 台 可 用 的 微机 Altair 8800 是 由 MITS 公司 于 1975 年 推 向 市 场 的 。 随 后 
AN ASE I (1976 年 ) 和 苹果 JI 1977 4E) 上 市 ， 它 们 是 最 早 拥 有 可 用 软件 和 外 设 的 可 用 的 
商用 微机 。 

摩托 罗拉 公司 设计 了 68000 (32 位 微机 )， 以 此 为 基础 ， 芋 果 公 司 在 20 世纪 80 年 代 早 
期 推出 了 新 的 Mac 计算 机 。Atari (预示 了 游戏 技术 ) 和 Commodore ( Amiga 是 多 媒体 计算 
机 的 先驱 ) 制造 了 另 一 些 基 于 68000 的 计算 机 。 不 管 是 好 还 是 坏 ，IBM 选择 采用 Intel 体系 
结构 战胜 了 摩托 罗拉 的 处 理 器 。 摩 托 罗 拉 曾 与 Intel 在 工业 界 并 驾 齐 驱 。 如 果 IBM 采用 的 是 
68000 而 不 是 8086， 摩 托 罗拉 可 能 成 为 今天 的 Intel。 摩 托 罗 拉 68000 (和 它 的 8 位 微 处 理 器 ) 
并 没有 消失 ， 飞 思 卡 尔 公司 接管 了 摩托 罗拉 微 处 理 器 ， 并 以 ColdFire 的 名 字 推 上 市 场 。 现 
在 摩托 罗拉 处 理 器 依然 存在 ， 但 更 多 地 应 用 于 激光 打印 机 和 汽车 等 戏 入 式 领 域 。 


j 
| 


开放 式 体系 结构 

开放 式 体系 结构 能 够 接受 来 自 第 三 方 厂商 的 插件 系统 和 设备 。 蔷 果 计 算 机 不 是 开放 
| 体系 结构 ， 革 果 以 开拓 市 场 为 代价 维持 着 对 其 计算 机 各 个 方面 的 控制 。 从 IBM 和 苹果 的 
| 开放 性 可 以 看 出 开放 更 多 是 法 律 上 的 而 不 是 技术 上 的 。IBM 没有 寻求 法 律 保护 使 PC 机 
”不 被 克隆 ， 而 苹果 却 是 这 么 做 的 。 
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基于 Intel 的 技术 和 微软 的 操作 系统 软件 ，IBM 在 20 世纪 80 年 代 推 出 了 个 人 电脑 (PC 
机 )。 由 于 它 的 开放 式 体系 结构 ，PC 机 在 第 三 方 软 、 硬 件 开发 者 中 流行 起 来 。Intel 将 8080 
微 处 理 器 扩展 为 包括 16 位 80286 (1982 年 ) 和 32 位 80386 (1985 年 )， 以 及 含有 64 位 数据 
总 线 的 Pentium ( 1990 年 )。 到 2000 年 ，Intel 凭借 其 富有 想象 力 的 设计 、 技 术 革 新 和 积极 的 
市 场 营销 ， 成 功 地 从 竞争 者 中 脱颖而出 ， 统 治 了 PC 机 市 场 。 

有 趣 的 是 ， AMD 和 之 后 薄命 的 Transmeta 等 一 些 厂商 推出 了 与 Intel 处 理 器 兼容 的 产品 
这 些 芯 片 能 够 执行 与 Intel 处 理 器 相同 的 机 器 代码 ， 但 它们 是 通过 在 执行 自己 的 本 地 指令 之 
前 将 Intel 机 器 语言 转换 为 自己 的 机 需 语 言 来 做 到 这 一 点 的 。 一 些 人 可 能 会 说 就 连 Intel 的 芯 
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片 也 不 再 执行 Intel HLS T, BA EO LEIS Hr A PB Ce Ry ED RE (这 是 一 个 被 简 
化 的 实际 情况 ， 因 为 并 非 所 有 指令 都 被 会 翻译 )。 第 6 章 将 详细 介绍 处 理 器 的 内 部 操作 。 


1.3.5 ”摩尔 定律 和 进步 的 历程 


“摩尔 定律 ”一 词 是 卡 沃 * X (Carver Mead) 于 1975 年 根据 戈 登 . 摩尔 (Gordon 
Moore) 所 观察 到 集成 电路 的 集成 度 每 两 年 翻 一 番 的 现象 而 创造 的 。 摩 尔 定律 当然 是 一 个 经 
et 但 在 过 去 的 40 年 里 ， 技 术 的 进步 的 确 导致 芯片 内 晶体 管 数量 呈 指 数 式 增 
长 。 这 一 增长 还 伴随 着 集成 电路 速度 的 相应 提升 。 集 成 电路 内 晶体 管 数量 的 增加 还 导致 体系 
sem se RP DIE 些 极其 聪明 的 性 能 提升 方法 的 出 现 。 


| 乱 序 执行 
| 就 像 食谱 中 所 列 的 步骤 一 样 ， 程 序 中 的 指令 也 必须 一 条 接 一 条 地 按照 它们 在 程序 中 
| 的 出 现 顺序 执行 。 请 考虑 以 下 算术 表达 式 (指令 )。 
| "Ls2%c 
| 2yY=c+4 
| 3.25x47 
| 4.4=4*C 

5.P=C-3 

有 时 可 以 通过 改变 指令 的 执行 顺序 提高 计算 机 的 速度 。 在 这 个 例子 里 ， 指 令 (4) 
| 和 (5 ) 可 以 在 任何 时 候 执行 ， 但 指令 (3 ) 必须 在 指令 (1) 和 (2) 结束 后 才能 执行 。 


De ee A es mamma een errant r s nh emma ppt 


20 世纪 90 EIR, WANARA 点 构 没 有 特别 显著 的 改进 __Pentium 系列 处 理 器 
的 指令 集 与 Intel 80386 差别 不 大 。PC 机 的 成 功 要 求 未 来 的 计算 机 必须 提供 与 旧 机 器 之 间 的 
向 后 兼容 ， 以 维护 不 同 代 机 器 之 间 的 软件 兼容 。 然 而 ，Intel 处 理 器 的 微 体 系 结构 绝 不 是 一 成 
不 变 的 。 微 体系 结构 领域 产生 了 相当 惊人 的 进展 。 

20 世纪 80 年 代 见 证 了 计算 机 组 成 的 一 个 变化 一 一 RISC 革命 ， 设 计 者 试图 设计 出 更 加 
合理 的 处 理 器 。 指 令 流水 线 是 RISC 处 理 器 的 一 个 关键 特征 ， 它 将 处 理 器 变 成 一 个 用 自动 生 
ee be 
被 定位 于 高 端 工 作 站 市 场 ， 它 们 从 未 获得 完全 的 成 功 ， 因 为 与 PC 市 场 相 比 工作 站 市 场 要 小 
得 多 。 

Intel 公司 以 极 大 的 热情 投入 到 性 能 更 高 的 处 理 器 的 研制 中 ， 并 将 经 典 RISC 处 理 器 的 不 
少 特 征 融入 它 自己 的 新 处 理 器 产品 中 (IA32 体系 结构 的 Pentium 系列 处 理 器 )。 

超标 量 处 理 和 乱 序 执行 的 出 现 是 计算 机 组 成 的 男 一 个 重要 变化 。 后 文 将 讨论 这 些 内 容 。 
这 里 需要 介绍 的 就 是 超标 量 处 理 包括 从 存储 器 中 读 出 几 条 指令 且 并 行 执行 这 些 指令 ; 乱 序 执 
行 则 是 指 以 不 同 于 程序 中 顺序 的 顺序 执行 指令 ， 以 避免 等 待 某 条 指令 的 执行 ， 从 而 加 快 指令 
的 执行 速度 。 乱 序 执行 允许 在 当前 指令 等 待 正 被 使 用 的 资源 时 执行 程序 中 靠 后 的 指令 。 用 菜 
谱 做 类 比 ， 乱 序 执行 就 相当 于 在 豪 饪 主 菜 的 时 候 准 备 甜 点 。Intel 在 它 的 Pentium 系列 处 理 器 
中 引入 了 乱 序 执行 机 制 。 

尽管 20 世纪 80 年 代 展 开 了 RISC 和 CISC 的 大 辩论 ， 但 随 着 RISC 技术 应 用 于 CISC 处 
理 器 中 、CISC 的 特点 体现 在 RISC 处 理 器 中 ， 原 本 存在 巨大 分 歧 的 RISC 和 CISC 逐渐 融合 ， 
20 世纪 90 年 代 计 算 机 科学 家 们 已 经 不 再 讨论 这 一 问题 了 。 





1.3.6 FERRER 


高 速 处 理 对 今天 的 计算 机 应 用 来 说 非常 重要 ， 但 是 如 果 没 有 用 来 保存 程序 和 数据 所 必需 
的 速度 快 、 体 积 小 、 功 耗 低 、 容 量 大 的 存储 器 ， 我 们 所 知道 的 计算 机 就 不 会 出 现 。 数 字数 据 
记录 的 先驱 之 一 阿尔 伯 特 : 霍 格 兰 ( Albert Hoagland) 在 1982 年 曾 说 ,“ 为 了 向 磁 盘 盘 片上 
履 盖 的 基本 材料 表示 和 敬意， 硅谷 应 改名 为 铁 氧 化 物 谷 (Iron Oxide Valley)” o SFR ERI AWE 
点 ; 正 是 磁盘 使 得 PC 革命 成 为 可 能 . 

20 世纪 30 年 代 ， 约翰 : 文 森 特 ' 阿 塔 纳 索 夫 (John V. Atanasoff) 发 明 出 一 种 最 早 的 存 
储 设 备 ， 这 是 一 个 覆盖 着 电容 的 旋转 的 磁 鼓 ， 能 够 充电 并 存储 1 和 0。 磁 鼓 旋转 时 ， 电 容 从 
一 排 触 点 下 通过 ， 它 们 的 值 会 被 读 出 。20 世纪 40 年 代 ， 东 超声 延迟 线 被 用 来 存放 数据 ， 就 
像 一 串 超声 脉冲 沿 着 一 条 充满 水 银 的 细 管 传播 一 样 。 当 脉冲 信号 从 一 端 传 递 到 男 一 端 时 ， 它 
会 被 放大 并 再 次 循环 。 这 是 真正 的 动态 存储 。 

第 一 个 快速 数据 存储 设备 是 由 英国 曼彻斯特 大 学 的 弗 雷 德里 克 … 威廉 姆 斯 ( Frederick 
Williams) 发 明 的 。 阴 极 射线 管 (最 初 用 于 雷达 显示 器 ， 后 来 用 于 电视 机 ) 通过 用 电子 束 照 
射 某 个 点 进行 充电 ， 从 而 将 数据 存放 在 其 表面 (这 是 阿 塔 那 索 夫 旋转 磁 鼓 的 电子 版 本 )。 第 
一 代 威 廉 姆 斯 管 只 能 存储 1024 比特 ， 后 来 翻 倍 为 2048 比特 。 

1949 年 ， 佛 瑞 斯 特 (Forester) 在 美国 为 旋风 计算 机 (Whirlwind Computer) 设计 了 铁 氧 
体 磁 芯 存 储 器 。 磁 芯 是 一 个 很 小 的 磁 材 料 环 ， 能 够 沿 顺 时 针 或 逆 时 针 方向 磁化 。 到 20 世纪 
70 年 代 ， 铁 氧 体 磁 芯 存 储 器 已 成 为 大 型 机 的 主流 存储 器 。 实 际 上 ， 铁 氧 体 磁 芯 在 储 器 带 给 
我 们 磁 芯 存储 器 (core store) 这 个 名 词 ， 现 在 描述 大 容量 外 存储 上 器 时 偶尔 还 会 用 到 它 。20 t 
纪 70 年 代 ， 人 们 发 明了 半导体 动态 存储 器 用 作 磁 芯 存储 器 的 替代 品 ， 现 在 已 成 为 数据 存储 
的 标准 手段 。 今 天 ， 我 们 可 以 很 容易 地 用 容量 较 小 的 DRAM 模块 (在 一 个 小 的 电路 板 上 集 
成 几 个 存储 芯片 ) 实现 8G 字 节 的 存储 容量 。 从 1024 比特 的 威廉 姆 斯 存储 管 开 始 ， 人 们 经 历 
了 漫长 的 历程 (2”“=6400 万 )。 

磁盘 一 直 用 来 存放 程序 和 数据 IBM 于 1956 年 在 它 的 统计 控制 随机 存 取 方法 (RAMAC) 
上 引入 了 一 种 磁盘 存储 机 制 ， 将 数据 保存 在 一 个 旋转 的 磁盘 的 表面 。RAMAC 305 磁盘 能 够 
存储 大 约 5MB 的 数据 ， 转 速 为 1200 rpm。 自 那 时 起 ， 磁 盘 性 能 开始 提升 。 现 在 ， 磁 盘 的 
最 大 容量 约 为 4T (2”) 字 节 ， 容 量 为 ITB 的 可 移动 外 部 硬盘 可 以 很 容易 地 装 进 口袋 中 (而 
不 像 冰 箱 那 么 大 的 RAMAC)。 由 于 磁盘 的 机 械 特 性 ， 其 典型 转速 为 7200 rpm， 仅 有 最 初 
RAMAC 的 6 倍 快 。 让 我 们 再 次 说 一 次 : 现代 磁盘 的 容量 是 RAMAC 的 数 百 万 倍 ， 但 其 速度 
却 仅 是 RAMAC 的 6 倍 。 这 一 细节 指出 了 计算 机 发 展 过 程 中 的 瓶颈 : 计算 机 各 个 组 成 部 分 
的 发 展 速度 是 不 均衡 的 。 不 过 ， 现 在 用 来 替代 硬 磁 盘 的 固态 盘 技术 具有 非常 快 的 、 完 全 电子 
化 的 驱动 器 ( 见 《 计 算 机 存储 与 外 设 》 第 3 章 )。 

今天 ,个 人 计算 机 使 用 光 存 储 器 (DVD 或 蓝光 光盘 ) 导入 程序 或 存储 数据 。 光 存储 技 
术 将 信息 存放 在 透明 聚 碳酸 酯 盘 上 的 螺旋 轨道 上 。 人 们 利用 激光 技术 从 可 重 写 光 盘 上 读 出 信 
息 ， 或 将 信息 写 人 可 重 写 光 盘 。CD 技术 是 在 1958 年 (发明 激光 ) 一 1978 年 (可 用 的 光 存 
储 器 ) 间 发 明 的 。DVD ( 1997 年 发 明 ) 是 改进 的 CD， 蓝光 光盘 〈2006 年 ) 是 改进 的 DVD。 


”纯粹 主义 者 也 许 会 说 今天 的 磁盘 上 和 覆盖 着 比 铁 氧 化 物 更 复杂 的 材料 ， 早 期 , IBM PC 机 软盘 比 硬盘 更 加 流行 。 
这 么 说 当然 没 错 ， 但 堆 格 兰 的 话 的 精髓 在 于 在 计算 机 的 发 展 过 程 中 ， 数 据 记录 技术 扮演 了 与 广为人知 的 硅 必 
片 技术 一 样 重要 的 角色 。 
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几 年 之 间 ， 光 存储 技术 就 从 每 片 容 量 600M 字 节 扩展 到 25GB。 本 书后 面 会 详细 讨论 光 存 储 
技术 。 


1.3.7 HEHA 


i£ (ubiquitous) 计算 或 泛 在 ( pervasive) 计算 的 发 展 是 当今 世界 的 一 大 特点 。 这 个 概 
念 的 简单 含义 是 计算 是 无 处 不 在 的 。 例 如 ， 一 辆 现代 汽车 中 含有 超过 50 台 不 同 的 计算 机 ， 
控制 着 从 复杂 的 卫星 导航 系统 到 简单 的 门 锁 机 制 。 

普 适 计算 在 手机 、MP3 播放 器 、 数 码 相 机 和 游戏 终端 上 体现 得 最 为 明显 。 普 适 计算 的 
一 个 特征 就 是 趋同 性 (convergence) 这 个 概念 ， 功 能 穿越 了 不 同 移动 设备 之 间 的 界限 。 例 
如 ， 手 机 被 设计 为 通信 设备 ， 而 由 于 它 含有 计算 机 、 存 储 器 、 键 盘 和 显示 器 ， 它 能 够 很 容易 
地 实现 如 MP3 播放 器 和 个 人 备忘录 等 其 他 功能 。 通 过 集成 更 多 的 硬件 (其 价格 也 越 来 越 便 
宜 )， 可 以 进一步 融合 ， 将 GPS 或 数码 相机 的 功能 集成 到 手机 中 。 

普 适 计算 也 被 称 作 功 耗 感知 (power-aware) 的 计算 。 术语 功 耗 感知 与 低 功 耗 计算 的 含义 
相同 。 如 果 系 统 真 的 是 很 小 的 便携 的 ， 它 们 无 法 连接 到 电网 上 ， 只 能 依靠 电池 或 其 他 手段 为 
其 充电 。 功 耗 限制 导致 低 功 耗 电路 设计 和 减少 处 理 器 功 耗 等 方面 的 研究 不 断 增加 。 多 核 处 理 
技术 也 受到 功 耗 感知 的 驱动 ， 因 为 与 增加 时 钟 频率 相 比 ， 使 用 多 个 处 理 器 核 可 以 更 加 高 效 地 
提高 计算 能 力 。 

eBook 或 电子 书 是 功 耗 感 知 计算 的 一 个 产品 ， 它 允许 人 们 将 成 百 上 千本 书 放 在 一 个 平装 
书 大 小 的 设备 中 。 尽 管 eBook 依赖 低 功 耗 CPU 技术 进行 数据 处 理 ， 以 及 体积 小 的 非 易 失 性 
高 速 Flash 存储 器 存放 这 些 书 ， 但 还 是 新 型 功 耗 感知 显示 技术 的 进步 使 eBook 成 为 可 能 。 电 
FK (E-ink) 使 用 大 量 细 小 含有 透明 液体 的 微 胶 吉 。 每 个 微 胶 昨 内 都 有 细小 的 白色 和 黑色 
有 颗粒 代表 着 相反 的 电荷 。 通 过 施加 一 个 穿 过 微 胶 吉 的 静态 电压 ， 白 色 颗 粒 将 移动 到 微 胶 寺 
顶端 ， 黑 色 颗 粒 移动 到 底部 ,或 者 按照 相反 方向 移动 。 这 会 分 别 使 微 胶 上 完 看 起 来 是 白色 或 黑 
色 的 。 

一 旦 充电 完毕 ， 电 子 黑 水 操作 时 无 需 耗 电 ( 即 仅 在 翻 页 时 才 会 消耗 电量 )。 传 统 的 LCD 
技术 (可 以 在 iPad 中 看 到 ) 在 彩色 显示 方面 具有 一 定 的 优势 ， 可 以 在 光照 条 件 较 差 的 情况 下 
使 用 , 但 由 于 其 背光 ，LCD 的 功 耗 较 高 ， 并 且 在 明亮 的 光照 条 件 下 可 视 性 较 差 。 


1.3.8 多 媒体 计算 机 


多 媒体 处 理 能 力 是 现代 计算 机 (包括 普 适 的 和 传统 的 个 人 计算 机 ) 的 一 个 重要 特征 。 多 
媒体 处 理 (处 理 和 存储 音频 / 视频 数据 ) 需要 很 大 的 存储 容量 以 及 完成 大 量 简单 重复 操作 的 
实时 处 理 声 音 样 本 和 图 像 像素 的 能 力 。 不 断 改进 的 存储 技术 和 不 断 提 高 的 计算 能 力 最 初 使 得 
在 桌面 PC 机 上 处 理 多 媒体 成 为 可 能 ， 之 后 又 使 价格 便宜 、 质 量 轻 的 个 人 设备 (比如 iPad) 
具备 了 进行 多 媒体 处 理 的 能 力 。 

本 书 将 介绍 现代 计算 机 是 如 何 利用 音频 / 视频 数据 的 特点 来 增强 性 能 的 。 我 们 将 专门 介 
绍 Intel 的 多 媒体 扩展 (MMX) 指令 。 之 所 以 选择 MMX， 是 因为 它 是 最 早 在 IA32 系列 处 理 
器 上 实现 的 扩展 指令 集 。 后 续 的 Intel 处 理 器 还 支持 更 多 的 扩展 指令 (比如 SSE 和 SSE-2 ), 
AMD 处 理 器 也 有 类 似 的 扩展 指令 。 

随 着 时 间 的 推移 ， 体 系 结构 设计 的 收敛 程度 随 着 多 媒体 播放 器 的 引入 而 不 断 增加 ， 这 使 
得 个 人 计算 机 与 高 分 辩 率 视频 娱乐 系统 之 间 几 乎 没有 多 大 的 差别 了 。 
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14 存储 程序 计算 机 

本 书 将 相当 详细 地 介绍 两 种 高 性 能 计算 机 : ARM 系列 计算 机 和 Intel IA-64 体系 结构 的 
计算 机 。 但 本 节 并 不 会 将 计算 机 视 作 一 种 既定 事实 ， 直 接 描述 它 的 结构 ， 而 是 会 从 概念 上 介 
绍 计 算 机 是 如 何 设计 的 。 因 此 本 节 将 通过 提出 一 个 问题 并 分 析 解 决 这 个 问题 需要 哪些 东西 ， 
来 介绍 一 个 非常 简单 的 计算 机 的 结构 。 尽 管 这 个 问题 非常 简单 ， 但 它 却 展示 了 一 个 真正 的 程 
序 所 要 完成 的 操作 以 及 指令 序列 的 概念 。 本 节 将 要 设计 的 用 来 解决 问题 的 计算 机 就 是 真正 的 
存储 程序 计算 机 的 一 个 初始 版 本 。 


1.4.1 问题 描述 


请 考虑 图 1-7 中 的 十 进 制 数 串 23277366664792221。 正 如 读者 所 看 到 的 那样 ， 其 中 有 一 
些 值 相同 的 数字 连续 出 现 (例如 连续 的 2 个 7、4 个 6 和 3 个 2)。 我 们 的 问题 十 分 简单 : 找 
出 最 大 游程 ， 即 同一 个 数字 连续 出 现 的 最 大 次 数 。 为 了 简化 问题 ， 假 设 数 串 的 长 度 大 于 3。 

从 图 1-7 中 可 以 很 快 看 出 结果 应 为 4， 因 为 这 一 串 数字 中 有 4 个 连续 的 6， 而 连续 的 7 
只 有 2 个 ,连续 的 2 则 只 有 3 个。 我 

长 为 17 的 数 串 
们 将 设计 一 台 计 算 机 来 处 理 图 1-7 中 


的 数 申 ， 它 每 次 读 一 个 数 ， 并 告诉 我 2000000 000o 0000o 





们 最 大 游程 是 多 少 。 相同 的 数 连续 出 现 4 次 相同 的 数 连续 出 现 3 次 
s > - 图 1-7 一 时 
1.4.2 解决 方法 图 a 


如 果 我 们 从 数 串 的 左边 开始 逐个 检查 数字 ， 在 任何 一 个 位 置 ， 我 们 都 会 得 到 以 下 两 个 结 
果 之 一 : 要 么 这 个 数 与 前 一 个 相同 ， 序 列 还 在 增长 ; 要 么 这 个 数 与 上 一 个 不 同 ， 前 一 个 序列 
结束 ， 一 个 新 的 序列 开始 。 为 了 强调 这 一 点 ， 图 1-7 中 用 带 阴影 的 圆 角 矩形 标 出 了 所 有 至 少 
含有 两 个 数 的 序列 。 

图 1-8 中 的 状态 图 可 以 帮 有 我们 解决 这 个 问题 。 在 任 一 时 刻 ， 某 个 系统 都 会 处 于 几 种 可 能 的 
状态 之 一 。 例 如 ， 人 要 么 睡 着 了 ， 要 么 醒 着 ; 飞机 则 可 能 处 于 以 下 3 种 状态 之 一 : Rest. E 
落 或 水 平 飞行 。 对 于 一 个 数字 系统 ， 当 一 个 特定 的 事件 (如 时 钟 脉冲 ) 发 生 时 ， 它 将 从 一 个 
状态 转换 为 另外 一 个 状态 。 图 1-8 中 ， 每 当 从 数 串 中 读 出 一 个 新 的 元 素 ， 都 会 发 生 状 态 转换 。 


和 前 一 个 数 不 同 的 新 数字 开始 


和 前 一 个 数 相同 不 在 同一 个 
的 新 数字 序列 中 










和 前 一 个 数 不 同 
的 新 数字 





和 前 一 个 数 相 同 的 新 数字 
图 1-8 ”游程 计数 器 的 状态 图 


图 1-8 中 有 两 个 状态 ， 分 别 是 “在 同一 序列 中 ”和 “不 在 同一 序列 中 ”。 处 于 状态 “在 
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同一 序列 中 ”的 条 件 是 当 发 现 连 续 的 两 个 或 更 多 的 数字 都 具有 相同 的 值 时 。 如 果 处 于 状态 
“不 在 同一 序列 中 "， 且 新 的 数 与 前 一 个 数 不 同 ， 则 会 依然 维持 当前 状态 “不 在 同一 序列 中 ” 
不 变 。 如 果 新 读 出 的 数 与 上 一 个 数 相同 ， 则 状态 将 转换 为 “在 同一 序列 中 "， 因 为 此 时 已 经 
处 于 一 个 序列 的 第 二 个 位 置 。 只 要 每 个 新 读 出 的 数 都 与 前 一 个 相同 ， 每 次 状态 转换 后 都 会 维 
持 “ 在 同一 序列 中 ”的 状态 不 变 。 只 有 当 新 读 出 的 数 与 前 一 个 不 同时 ， 状 态 才 会 被 转换 为 
“不 在 同一 序列 中 ”。 

图 1-9 列 出 了 一 个 接 一 个 地 读 入 图 1-7 中 数 串 的 数字 后 系统 状态 的 转换 情况 。 正 如 读者 
所 看 到 的 那样 ， 状 态 的 改变 会 发 生 在 序列 的 第 二 个 数字 或 结束 序列 的 那个 数字 上 。 


数字 4 会 结束 “在 同一 序 
数字 6 会 使 系统 保持 “在 列 中 ” :不 在 同 


同一 序列 中 ”状态 不 变 _ 序 列 中 状态 
一 一 一 > 时 间 ay pe 


二 
OVUPMMOEEOOOECEOOOOW 
he ee 
状态 “不 在 同一 序列 中 ” ”状态 “在 同一 序列 中 ” 

图 1-9 AR 1-7 中 的 数 串 后 的 状态 转换 


K 1-1 则 将 这 些 数字 组 织 成 一 种 更 容易 理解 的 形式 。 最 上 面 一 行 是 每 个 数字 在 数 串 5 中 
的 位 置 或 地 址 ， 下 一 行 是 串 $ 中 这 个 数字 的 值 。 例 如 ， 第 11 个 元 素 的 值 是 4。 第 三 行 则 是 
当前 序列 中 数 的 值 ; 这 一 行 的 第 一 个 元 素 是 ? ， 因 为 此 时 上 一 个 元 素 的 值 是 未 知 的 。 显 然 ， 
第 三 行 每 个 元 素 的 值 与 第 二 行 前 一 个 元 素 的 值 相同 。 

表 1-1 将 数 串 转换 为 数值 表 

“在 囊 中 的 位 置 1 2 3 4 5 6 7 8 9 10 HN R B 4 IS 16 17 

元 素 值 2 3 2 7 T. 3 6 6 6 6 4 7 9 2 2 2 1 

当前 序列 数值 ? 2 3 2 7 7 3 6 6 6 6 4 7 9 2 2 2 


让 我 们 从 数 串 的 左边 开始 ， 逐 个 检查 每 个 数字 。 我 们 每 次 读 入 一 个 新 的 数字 ， 并 问 自 
“我 们 是 否 找 到 了 一 个 新 的 序列 ?” 如 果 此 时 正好 处 于 一 个 序列 的 开始 ， 那 么 这 个 序列 的 
长 度 被 和 为 1 如 果 这 个 数字 是 当前 序列 的 一 部 分 ， 则 当前 序列 的 长 度 增加 1。 现 在 我 们 遍 
历数 串 中 的 每 个 数字 ， 并 将 每 个 数字 对 应 的 序列 长 度 记 录 在 表 1-2 中 - 序列 长 度 在 1 一 4 之 
间 变 化 。 请 注意 ， 表 1-2 中 “当前 序列 数值 ”这 一 行 记录 的 是 检查 新 元 素 之 前 的 数值 ， 
1-2 ” 数 串 中 每 个 元 素 所 在 序列 的 长 度 


在 串 中 的 位 置 t 2 4 § 6 zA 8 IO MW mw BB le N 
元 素 值 2x J G@ F PF F 6 Se € Bh HF B BBM DB dt 
当前 序列 数值 J 23 2 7773 6&6 b64 7997772 
当前 序列 长 度 i | i 2 t 第 2 8 4 1 1 1 i 2 3 1 


每 当 一 个 新 的 序列 开始 时 ,我 们 都 会 判断 上 一 个 序列 是 否 比 目 前 为 止 最 长 的 序列 还 长 。 
K 1-3 通过 增加 新 的 一 行 记录 目前 最 大 序列 的 长 度 来 说 明 这 是 如 何 实现 的 。 可 以 看 到 ， 当 处 
理 完 数 串 最 右边 的 第 17 个 元 素 后 ， 所 记录 的 最 大 序列 长 度 为 4。 注意 ， 这 个 问题 假定 串 的 
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长 度 是 已 知 的 ， 处 理 过 程 何 时 停止 也 是 已 知 的 。 如 果 不 知道 这 些 ， 那 么 就 必须 知道 最 后 一 个 
数 是 什么 ， 显 然 它 必 须 是 唯一 的 。 
表 1-3 FH 1-2 中 增加 最 大 序列 长 度 


在 串 中 的 位 置 1 2 2 #4 & 6 fF 8 FS 7 
元 素 值 2 8 £ 7 Ff PR 6 6 6 & 4 FF F&F @ BF BB y 
当前 序列 数值 
当前 序列 长 度 i 
最 大 序列 长 度 站 


1.4.3 构造 一 个 算法 

下 一 步 是 设计 一 个 算法 ， 告 诉 我 们 如 何 清楚 明确 地 解决 这 个 问题 。 遍 历数 串 的 时 候 ， 必 
须 跟踪 一 些 信息 。 当 然 ， 这 些 信息 分 别 对 应 于 表 1-3 中 的 各 行 。 为 方便 起 见 ， 我 们 通过 下 面 
的 符号 名 引用 这 些 信 息 。 


i 串 的 当前 位 置 

New Digit 刚 从 数 串 中 读 出 的 数字 的 什 
Current Run Value 当前 序列 数值 
Current_Run_length 当前 序列 长 度 

Max_Run 目前 为 止 的 最 大 序列 长 度 


下 面 的 伪 码 描述 了 解决 这 个 问题 所 必需 的 操作 。 伪 码 的 开始 部 分 是 初始 化 操作 ， 它 们 仅 
被 执行 一 次 ， 而 REPEAT…UNTIL 所 定义 的 重复 操作 加 阴影 表示 。 为 简便 起 见 ， 此 处 省 去 了 索 
引 变量 i， 用 “第 一 个 数 ”或 “下 一 个 数 ” 表 示 各 个 数字 ， 而 没有 用 digit(i) 或 digit(i+1)。 

" 读 出 事 的 第 一 个 数字 ， 将 其 称 为 New_Digit 

将 Current_Run_Value #4 {i # 4 New_Digit 


Zi. 
3.. 将 Current Run Length 的 值 置 为 1 
4 将 Max_Run 的 值 置 为 1 


上 面 的 伪 码 使 用 了 两 个 在 很 多 高 级 语言 中 都 能 见 到 的 结构 :5 ~ 13 行 的 REPERT…UNTIL 
结构 和 IF…THEN…ELSE 结构 。REPEAT…UNTIL 用 于 将 一 个 动作 执行 一 次 或 重复 多 次 ，IE… 
THEN…ELSE 则 从 两 个 可 能 的 动作 中 选择 一 个 来 执行 。IF…THEN…ELsE 是 数字 计算 机 的 关键 操 
作 ， 本 书 会 以 多 种 方式 多 次 用 到 这 个 结构 。 读 者 还 会 看 到 它 是 如 何在 硬件 层 实现 的 ， 它 在 几 
种 不 同 的 计算 机 上 是 如 何 表示 的 ， 它 怎样 给 现代 计算 机 的 性 能 带 来 负面 影响 ， 一 些 计算 机 如 
何 试图 在 它 实际 完成 之 前 猜测 其 结果 ， 以 及 一 些 计算 机 如 何 试图 使 用 谓词 操作 完全 避免 它 的 
出 现 。 






算法 、 程 序 和 伪 码 
算法 是 一 个 用 来 完成 某 个 功能 的 长 度 有 限 的 明确 定义 的 指令 序列 〔 即 计算 一 个 函数 
或 完成 一 项 给 定 的 任务 )。 一些 计算 机 科学 的 基础 教材 中 以 菜谱 为 例 ， 认 为 菜谱 就 是 制 
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作 一 道 菜 的 算法 。 

程序 是 实现 一 个 算法 的 一 组 计算 机 指令 。 也 即 ， 程 序 是 用 特定 方式 描述 的 一 个 算法 
”的 实例 ， 其 目的 是 在 一 台 特 定 的 计算 机 上 求解 问题 。 程 序 中 包含 的 信息 可 能 比 算 法 所 描 
， 述 的 更 多 ， 因 为 程序 必须 构建 一 个 合适 的 环境 (就 好 像 菜谱 并 不 会 告诉 我 们 怎样 打开 米 
， 箱 或 购买 黄油 的 最 住地 点 )。 

伪 码 则 介 于 算法 和 程序 之 间 。 伪 码 在 本 质 上 就 是 一 个 用 特定 的 类 程序 设计 语言 描述 

的 算法 。 伪 码 的 目的 是 使 程序 员 可 以 用 它 描 述 一 个 算法 ， 而 读者 不 必 深 入 了 解 特 定 的 程 
序 设计 语言 。 上 面 的 例子 中 使 用 了 “ 读 出 串 的 第 一 个 数字 ”之 类 的 伪 码 操作 。 这 个 操作 
的 功能 是 完全 清楚 的 ， 但 所 有 有 关 如 何 读 出 这 个 数字 的 细节 都 被 隐藏 起 来 了 。 


ree 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 -rr memantine enemies 


144 ”计算 机 需要 通过 什么 来 解决 问题 


我 们 首先 来 看 看 解决 这 个 问题 时 应 进行 哪些 操作 。 由 于 1 ~ 13 行 的 动作 是 顺序 进行 的 ， 
我 们 的 计算 机 也 必须 能 顺序 地 完成 这 些 操作 。 细 心 的 读者 可 能 会 发 现 我 们 选择 顺序 解决 问题 
(每 次 一 步 )。 这 种 方法 既 反 映 了 人 类 的 通常 行为 ， 也 反映 出 计算 机 的 实际 发 展 。 我 们 也 可 以 
采用 另 一 种 不 同 的 方法 ， 同 时 进行 多 个 操作 。 我 们 设计 出 一 种 通用 的 问题 求解 机 制 ， 它 能 够 
很 容易 地 被 修改 以 便 用 于 解决 其 他 问题 。 我 们 也 能 设计 一 种 只 能 解决 这 个 问题 的 机 制 ， 但 我 
们 的 目标 是 设计 一 台 能 够 通过 编程 解决 一 系列 问题 的 计算 机 。 算 法 的 前 两 行 如 下 : 

1. 读 出 串 的 第 一 个 数字 ， 将 其 称 为 New_Digit 

2. 将 current Run Value 的 值 置 为 New_Digit 

第 1 行 从 串 中 读 出 一 个 数 ， 此 时 这 个 串 必须 保存 在 计算 机 存储 器 中 的 某 处 。 符 号 名 
New Digit 指明 了 这 个 数 在 存储 器 中 的 位 置 。 计 算 机 必须 确保 它 在 任何 需要 使 用 当前 序列 的 
当前 值 的 时 候 ， 都 能 访问 到 存储 器 的 这 个 位 置 。 

第 2 行 是 一 个 赋值 操作 ， 因 为 它 将 一 个 值 赋 给 一 个 变量 。 同 样 ， 第 3 行 和 第 4 行 也 是 赋 
值 操作 ， 它 们 分 别 将 变量 current _Run_Length 和 Max_Run 的 值 置 为 1。 计算机 必须 能 够 完成 
从 存储 器 中 读 出 一 个 数 ， 修 改 这 个 数 并 且 将 修改 后 的 数 写 回 存储 器 等 操作 。 

第 5 行 包含 关键 字 REPEaAT， 它 告诉 我 们 这 里 是 一 组 将 被 执行 1 次 或 多 次 的 操作 的 起 始 
位 置 。 这 组 操作 以 第 13 行 的 关键 字 UNTIL 结尾 。 

第 7、8 和 10 行 说 明了 条 件 执行 ， 即 要 执行 的 操作 类 型 取决 于 测试 结果 。 


7. IF 它 的 值 与 Curzent_Run Value 相同 


8. THEN Current_Run_Length = Current_Run_Length + 1 
ELSE {Current Run Length = 1; 
10. Current Run Value = New Digit} 


第 7 行 比较 从 串 中 读 出 的 数值 与 当前 序列 的 数值 是 否 相 同 ( 即 比较 wew_pigit 与 
Current_Run_Value 是 否 相 同 )。 然 后 根据 比较 结果 执行 下 面 两 个 操作 中 的 一 个 。 一 个 操作 
由 第 8 行 关键 字 THEN 后 面 的 文字 指定 ， 另 一 个 则 由 第 9、10 两 行 BLsE 后 的 文字 指定 。 第 
9 和 10 两 行 包 含 在 一 对 花 括 号 {} 中 ,说 明 执行 时 它们 将 被 视 作 ELsE 路 径 上 的 一 个 整体 。 
图 1-10 以 流程 图 的 方式 描述 了 这 一 结构 。 

尽管 这 个 问题 相对 简单 ， 它 却 含 有 解决 任 一 问题 所 需 的 全 部 元 素 : 有 将 信息 从 一 个 位 置 








传递 到 另 一 个 的 赋值 操作 2; 有 加 、 减 等 算术 运算 ; 最 后 ， 还 有 根据 计算 结果 (如 比较 ) 从 两 


个 候选 动作 中 选择 一 个 的 操作 。 
在 一 个 新 序列 
的 开始 处 
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is New Digit = Current. Run Value 


Current Run berath = Current: Ron Lengen = p" p 
Current Rum Length + io- Carrent Run Value = New Digit — 











图 1-10 IF--THEN--ELSE 结构 的 流程 图 


在 讨论 低级 和 高 级 语言 的 时 候 ， 一 些 术语 会 不 时 地 跳出 来 ， 因 此 下 面 列 出 一 些 简单 
的 定义 ， 以 供 大 家 参考 和 理解 。 
| 常量 -一 一 指 程序 执行 过 程 中 不 会 被 修改 的 值 ; 例如 ， 如 果 将 圆 的 周 长 表 示 为 c=27r7， 
那么 2 和 7 都 是 常量 。 

变量 一 一 指 程序 执行 过 程 中 会 发 生 改 变 的 值 。 在 上 面 的 例子 中 ，c 和 7 都 是 变量 。 

符号 名 一 一 为 了 便于 记忆 和 理解 而 用 来 引用 变量 和 常量 的 名 字 。 例 如 ， 我 们 将 圆 的 
周 长 称 为 C， 将 其 半径 称 为 ra 圆周 率 3.1415926 的 符号 名 为 x， 当 程序 被 编译 为 机 器 码 
的 时 候 ， 符 号 名 将 被 替换 为 实际 的 值 。 
言 息 保 存在 存储 器 中 ， 每 个 位 置 都 有 一 个 唯一 的 地 址 。 例 如 ， 贺 
的 半径 可 能 被 保存 在 存储 地 址 为 1234 的 单元 中 。 我 们 不 会 去 记 住 每 个 变量 存放 在 存储 
器 中 的 地 址 ， 而 是 用 不 同 的 符号 名 来 表示 每 一 个 地 址 ; 上 面 的 地 址 1234 可 以 被 称 作 ro 

值 和 位 置 一 一 表达 式 cnr 中 的 了 表示 什么 ， 值 还 是 位 置 ? 人 们 将 + 视 作 代 表 圆 半 
径 值 的 符号 名 ,比如 5。 但 是 ， 计 算 机 却 将 + 看 作 地 址 1234 的 符号 名 ， 必 须 进行 存储 器 
读 访 问 才 能 得 到 实际 值 。 那 么 表达 式 + =r +1 是 表示 修改 半径 的 值 (r=5+1=6) 还 是 
修改 地 址 的 值 (+ = 1234+1=1235) 呢 ? 区 分 存储 单元 的 地 址 和 它 的 内 容 非 常 重要 ， 特 
别 是 在 理解 指针 这 个 概念 时 。 

指针 一 一 指针 是 个 变量 ， 它 的 值 表 示 存 储 地 址 。 修 改 一 个 指针 后 ， 它 将 指向 一 个 不 
同 的 值 。 指 针 并 不 神秘 。 在 传统 算术 中 ， 符 号 中 的 i 就 是 一 个 指针 ; 不 过 我 们 通常 将 
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O 赋值 操作 看 起 来 很 像 传统 算术 中 的 等 于 运算 符 (=)， 但 它 表 示 等 号 右边 的 值 将 被 送 给 等 号 左边 的 变量 ( 
J=x+1 表示 将 x 的 值 加 1， 然后 将 和 送 给 y)。Algol 和 Pascal 等 计算 机 语言 用 := 而 不 是 = 表示 赋值 操作 。 ; 
面 我 们 将 用 左 箭头 一 表示 赋值 。 
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| 它 称 为 索引 。 改 变 指 针 (或 索引 ) 的 值 Geox, x, x, x,) 就 可 以 访问 表 、 数 组 或 矩阵 
| 中 相应 位 置 的 元 素 。 








otimes 


计算 机 解决 问题 所 需 元 素 并 不 比 上 面 介 绍 的 内 容 多 。 可 以 说 计算 机 体系 结构 就 是 更 加 快 
速 、 高 效 地 实现 我 们 所 描述 的 各 种 操作 类 型 。 

在 继续 介绍 计算 机 的 设计 之 前 ， 我 们 必须 简要 浏览 一 下 保存 程序 和 程序 所 用 数据 的 存储 
系统 。 


1.4.5 ”存储 器 

人 类 的 记忆 是 一 种 奇怪 的 、 不 精确 的 东西 。 一 个 事件 会 触发 一 次 对 某 个 被 我 们 称 为 记忆 
的 数据 元 素 的 回忆 或 检索 。 这 里 的 事件 也 许 是 某 人 问 你 的 一 个 问题 ， 也 许 是 让 你 回想 起 发 生 
在 过 去 的 某 段 插曲 的 东西 。 通 常 我 们 只 记得 其 中 的 一 部 分 ， 甚 至 它 还 是 错误 的 。 人 类 是 通过 
将 某 个 事件 与 所 保存 的 信息 相 匹 配 而 查找 或 访问 记忆 的 。 也 就 是 说 ,我 们 的 记忆 是 联想 的 ， 
因为 我 们 总 是 将 一 段 记 忆 与 男 一 段 联系 在 一 起 。 计 算 机 的 存储 器 则 完全 不 同 ， 最 好 将 它 视 作 
一 个 存放 信息 的 表格 或 目录 。 

图 1-11 描述 了 程序 怎样 找 出 保存 在 一 个 假想 存储 器 中 的 数 串 的 最 大 序列 长 度 。 必 须 强 
调 的 是 ， 这 个 程序 是 概念 上 的 而 不 是 实际 的 ， 因 为 真正 的 计算 机 指令 比 其 更 加 基础 。 这 幅 
图 叫 作 存储 器 映射 ， 它 展示 了 信息 在 存储 器 中 的 存放 位 置 。 它 是 存储 器 的 一 幅 快 照 ， 因 为 它 
表示 存储 咒 在 某 个 特定 时 刻 的 状态 。 存 储 器 映射 也 包含 程序 使 用 的 变量 和 数字 串 。 前 面谈 到 
过 ， 存 储 程序 计算 机 会 将 指令 、 变 量 和 常量 全 部 保存 在 同一 个 存储 器 内 。 

图 1-11 说 明 存储 器 中 的 每 个 位 置 要 么 保存 了 指令 要 么 保存 了 数据 元 素 。 第 一 列 中 的 数 
FO~ 37 为 地 址 ， 代 表 了 数据 元 素 和 指令 在 存储 器 内 的 存放 位 置 (地 址 从 0 而 不 是 1 开始 ， 
因为 0 是 一 个 合法 的 标识 符 )。 程 序 位 于 地 址 0 ~ 16 的 位 置 ， 变 量 位 于 地 址 17 ~ 20 的 位 
置 ， 而 数据 CAB) 位 于 地 址 21 ~ 37 的 位 置 。 可 以 将 计算 机 的 存储 器 视 作 一 个 数据 元 素 的 表 
格 一 一 每 个 元 素 的 位 置 就 是 它 的 地 址 。 例 如 ， 地 址 为 3 的 存储 单元 保存 了 指令 “将 Max_Run 
置 为 1” 而 地 址 为 20 的 存储 单元 保存 了 元 素 Max run 的 值 。17 行 及 其 后 面 的 各 行使 用 了 粗 
体 字 ， 表 明 它 们 保存 了 变量 以 及 秘 处 理 的 数 串 。 

千 万 不 要 以 为 图 1-11 中 的 程序 是 真实 的 。 为 了 简便 起 见 ， 我 们 不 得 不 省 略 了 一 些 细节 。 
例如 ， 我 们 在 地 址 10 处 放置 了 一 条 跳 转 指 令 ， 它 告诉 计算 机 忽略 地 址 11 和 12 处 的 指令 ， 
直接 执行 地 址 13 的 指令 。 这 是 必需 的 ， 因 为 如 果 执 行 了 分 支 的 THEN 部 分 ， 那么 必须 忽略 掉 
它 的 BLsE 部 分 。 此 处 还 说 明了 怎样 用 符号 Memory (i) 来 访问 每 个 数字 ， 它 表示 存储 器 的 第 i 
个 单元 。i 的 值 被 初始 化 为 21， 并 且 循 环 在 i 等 于 37 时 结束 。 

图 1-12 描述 了 存储 系统 的 组 成 。 处 理 器 将 一 个 放 在 地 址 总 线 上 的 地 址 以 及 一 个 用 于 选 
择 读 操 作 或 写 操 作 (它们 有 时 也 被 称 作 读 或 写 周期 ) 的 控制 信号 发 送 给 存储 器 。 在 读 周 期 中 ， 
存储 器 将 数据 放 在 数据 总 线 上 供 CPU 读 取 。 在 写 周 期 中 ， 放 在 数据 总 线 上 的 数据 被 写 人 存 
储 器 。 信 息 进 入 或 离开 存储 器 的 位 置 〈 或 计算 机 系统 的 其 他 功能 部 分 ) 叫 作 端口 。 

尽管 图 1-12 中 的 存储 器 是 简化 后 的 版 本 ， 它 却 准确 地 描述 了 将 数据 和 指令 连续 存放 的 
计算 机 存储 器 。 一 台 真 正 的 计算 机 会 使 用 存储 系统 层次 (每 个 层次 都 有 可 能 采用 不 同 的 技术 
来 实现 )。 这 些 层次 包括 保存 频繁 被 访问 数据 的 速度 非常 快 的 Cache、 主 存 ， 以 及 速度 非常 
慢 的 辅 存 ， 在 这 一 层次 中 大 量 数据 会 一 直 保 存在 磁盘 、 光 盘 或 DVD 中 ， 直 到 使 用 时 才 会 被 
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0 i = 21 

New Digit = Memory (i) 

将 变量 current_Run_ Value 的 值 置 为 变量 New_Digit 的 值 

将 变量 current Run Length 的 值 置 为 1 

REPEAT 

| 下 Hamet 

New Digit = Memory (i) 
8 IF New Digit = Current_Run_Value 
9 


THEN Current Run Length = Current_Run_Length + 1 





en 
© 


(R13 fT 
1i ELSE Current_Run_Length = 1; 
12 Current_Run_Value = New_Digit 
13 IF Current_Run_Length > Max Run 

14 THEN Max Run = Current_Run_Length 
UNTIL i = 37 h 
16 Stop 
17 |New Digit 

Current Run Value 

19 | Current_Run_Length 
: 


21 |2 1( 串 中 第 一 个 数字 ) 
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1 ( 串 中 最 后 一 个 数字 ) 
图 1-11 程序 及 其 数据 的 存储 映射 


由 于 使 用 文字 描述 计算 机 的 操作 很 不 方便 ， 下 面 介 绍 一 个 概念 寄存 器 传输 语言 
(Register Transfer Language, RTL), (EH RTL 可 以 更 加 容易 地 定义 计算 机 内 发 生 的 操作 。 


RTL 符号 

区 分 存储 单元 的 地 址 和 它 的 内 容 非 常 重要 。 在 RTL 语言 中 ， 我 们 通常 用 方 括号 [] 
| 表示 存储 单元 的 内 容 。 表 达 式 

[15] = Max_Run 

的 含义 是 “地 址 为 15 的 存储 单元 保存 了 变量 Max Run 的 值 ”。 

左 阐 头 符 号 -表示 数据 传送 操作 。 例 如 ， 表 达 式 

[15] <- [15] +1 

的 含义 是 “将 地 址 为 15 的 存储 单元 的 值 加 1， 并 将 结果 写 回 地 址 为 15 的 存储 单 
| 4”, SRF OHIRRILARBA: 


a. (20) =5 
b. [20] —6 
c. [20] < [6] 
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表达 式 (a) 表示 地 址 为 20 的 存储 单元 的 值 等 于 数字 5。 表达 式 (b) 将 数字 6 写 入 


| (复制 或 载 入 ) 地 址 为 20 的 存储 单元 。 表 达 式 〈c) 将 地 址 为 6 的 存储 单元 的 内 容 复制 到 
| 地 址 为 20 的 存储 单元 。 注 意 RTL 符号 二 等 价 于 传统 赋值 符号 =， 后 者 用 于 一 些 高 级 语 
| $t, RTL 并 不 是 一 种 计算 机 语言 ， 它 只 是 一 种 用 来 定义 计算 机 操作 的 符号 。 


地 址 端口 


地 址 总 线 





数据 总 线 Ng 


15 可 能 是 数据 ， 也 
可 能 是 一 条 指令 。 存 
储 器 中 数字 的 含义 并 
不 唯一 





7 
3 
® 
20 
3 
7 
3 
8 
8 
42 
12 
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(选择 读 还 是 写 ) 
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地 址 存储 单元 的 内 容 为 12 
(地 址 为 10 的 单元 ) 


图 1-12 存储 系统 


1.5 存储 程序 的 概念 


本 节 介绍 存储 程序 计算 机 其 中 会 精确 地 描述 直到 20 世纪 70 年 代 许多 计算 机 还 在 采用 的 


运行 过 程 。 今 天 的 计算 机 已 经 偏离 了 这 个 简单 的 模型 ， 因 为 它们 能 够 并 行 地 (甚至 是 乱 序 地 ) 
而 不 是 串 行 地 完成 内 部 操作 。 下 面 的 伪 码 描述 了 存储 程序 计算 机 的 基本 操作 。 


存储 程序 计算 机 
程序 计数 器 指向 存储 器 中 的 第 一 条 指令 
REPEAT 
从 程序 计数 器 所 指 的 存储 单元 中 读 出 指令 
修改 程序 计数 器 ， 使 之 指向 下 一 条 指令 
将 从 存储 器 中 取出 的 指令 解码 
执行 指令 
FOREVER 
End 


这 上 段 伪 码 表 明 ， 从 存储 器 中 取出 每 条 指令 都 需要 进行 一 次 访 存 操作 〈 即 读 存 储 器 )。 可 








以 用 下 面 的 伪 码 描述 “执行 指令 ”这 一 动作 : 


执行 指令 
IF 指令 需要 使 用 数据 
THEN 从 存储 器 中 读 这 个 数 
END_IF 


完成 指令 定义 的 操作 
IF 指令 要 将 数据 写 回 存储 器 
THEN 将 数据 写 回 存储 器 


END_IF 

End 

上 面 的 动作 序列 还 可 以 用 下 面 的 C 语句 描述 

InstructionPointer = 0; 

do 

{ instruction = memory[InstructionPointer]; /* 读 取 指令 af 
decode (instruction) ; /* 解码 指令 */ 
fetch (operands); /* 获取 需要 的 数据 */ 
execute; /* 执行 指令 */ 
store (results) ; /* 存储 结果 af 

} while (instruction != stop); 


在 这 人 台 机 器 上 执行 一 条 指令 需要 至 少 两 次 访 存 8 。 第 一 次 访 存 是 读 取 指 令 。 第 二 次 访 存 要 
么 从 存储 器 中 读 出 指令 需要 的 数据 ， 要 么 将 它 之 前 的 指令 产生 的 或 修改 过 的 数据 写 回 存储 器 ， 
有 时 候 也 称 存储 程序 计算 机 是 按照 读 取 /执行 (fetch/execution) 周期 的 两 阶段 模式 工作 的 。 

因为 每 条 指令 必须 两 次 访问 存储 器 ， 人 们 用 “ 冯 “… 诺 依 曼 瓶颈 ”一 词 表明 CPU 与 存储 
器 之 间 的 通路 是 存储 程序 计算 机 的 制约 因素 之 一 。 人 们 设计 了 不 同体 系 结构 的 机 器 来 解决 这 
一 问题 ， 后 续 章 节 将 会 介绍 这 些 内 容 。 

下 面 简要 介绍 一 下 存储 程序 计算 机 上 执行 的 指令 的 格式 。 存 储 程序 计算 机 的 一 种 直观 合 
理 的 指令 格式 可 以 用 下 面 的 形式 表示 


Operation Address1,Address2,Address3 


这 里 operation 表示 要 执行 的 指令 的 动作 ，adaaressl、adaress2 和 Address3 分 别 是 3 
个 操作 数 在 存储 器 中 的 位 置 。 在 这 条 一 般 性 的 指令 中 ， 操 作 数 为 数据 的 地 址 ， 而 不 是 数据 
本 刁 。 

本 书 用 粗 体 字 表示 地 址 是 数据 的 目的 地 址 而 不 是 源 地 址 。app e,o, R 是 一 条 典型 的 三 操作 
数 指令 ， 这 里 P、Q、R 是 三 个 存储 单元 地 址 的 符号 
名 。 操 作 数 的 书写 顺序 没有 严格 标准 。 有 些 计算 机 
使 用 destination, sourcel, source2 的 形式 ， 另 一 些 则 
使 用 sourcel, source2, destination 的 形式 。 

这 个 三 操作 数 指令 格式 可 用 RTL 符号 表示 为 

[Address1] + [Address2] Operation [Address3] 


Address2 和 Address3 所 指定 的 存储 单元 的 内 
容 由 指令 所 指定 的 二 元 操作 (例如 ， 加 、 减 、 乘 ， 
等 等 ) 处 理 。 操 作 的 结果 保存 在 aadressl 所 指 的 


存储 名 





存储 单元 中 。 图 1-13 描述 了 这 样 一 条 指令 的 执行 P、Q、R 分 别 是 地 址 101, fied it 
110 和 111 的 符号 地 址 存储 地 址 
过 程 ， 它 一 共 需 要 4 次 访 存 ( 即 一 次 取 指令 ， 两 次 


取 两 个 源 操作 数 ， 一 次 保存 结果 )。 指 令 与 操作 数 图 1-13 指令 与 操作 数 的 关系 


O 这 句 话 适用 于 那些 每 条 指令 都 会 访 存 以 存 取 数据 的 计算 机 。 有 些 计算 机 只 有 在 将 数据 读 和 或 送出 CPU 的 时 候 
才 会 进行 访 存 。 所 有 其 他 指令 都 处 理 CPU 内 的 数据 。 这 种 机 制 减少 了 访 存 次 数 ， 后 面 会 详细 讨论 这 种 机 制 。 

O 该 指令 是 假想 的 ， 因 为 由 于 技术 原因 ， 它 没有 在 任何 一 台 现代 计算 机 上 实现 。 很 快 我 们 就 会 看 到 ， 真 实 的 计 
算 机 指令 要 简单 得 多 。 
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P、QO、R 可 存放 在 存储 器 中 的 任何 位 置 。 


请 回想 一 下 指令 app P,Q,R 和 3 个 操作 数 P、Q 和 RR 是 如 何 放 在 同一 个 存储 器 中 的 。 
这 是 存储 程序 计算 机 这 个 概念 的 基础 。 

P、QO 和 和民 是 3 个 操作 数 的 符号 地 址 ， 这 3 个 操作 数 的 值 分 别 是 833、123 和 710， 
| 它们 的 二 进 制 存储 地 址 分 别 为 101、110 和 111。 
计算 机 指令 ADD P,Q,R 是 机 器 指令 的 符号 表示 ， 它 以 二 进 制 的 形式 (0、1 序列 ) A 
放 在 存储 器 中 。 

图 1-14 描述 了 指令 的 4 个 字段 与 CPU、 存储 器 以 及 指令 的 执行 方式 之 间 的 关系 。 这 人 台 
计算 机 只 能 执行 4 条 指令 并 仅 有 8 个 可 能 的 存储 单元 (图 1-14 中 仅 显示 了 4 个 单元 )。 当 前 
指令 为 app P,Q,R， 它 将 存储 单元 2 的 内 容 与 R 的 相 加 ， 并 将 结果 保存 在 尸 中 。 该 指令 的 二 
UE il Ha 59 10011010001, FF KG P. OAR 454 011, 010 和 001 (二 进 制 ) 或 3、2 
和 1 (十 进 制 ) 

图 1-14 描述 了 如 何 用 操作 码 选择 一 个 操作 (四 选 一 )， 用 源 地 址 选择 两 个 存储 单元 ， 以 
及 用 目的 地 址 选择 写 回 操作 数 的 存储 单元 。 该 图 还 说 明了 加 法 指令 执行 期 间 所 产生 的 信息 
流 。 后 面 我 们 还 会 看 到 操作 码 如 何 被 转换 为 实现 目标 指令 的 动作 序列 。 





三 操作 指令 的 可 视 化 

图 1-14 描述 了 机 器 指令 的 4 个 字段 是 如 何 解释 的 。 

操作 码 字 段 ADD 从 操作 表 中 选择 指令 并 控制 ALU, 

ZA ke bk FH P.O 和 RR 分 别 选 择 一 个 存储 单元 ， 它 们 都 将 参与 指令 的 解释 执行 (或 
执行 )。 


1. 两 地 址 指令 
有 些 计 算 机 实现 了 两 地 址 指令 ， 其 格式 为 
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Operation Addressl, Address2 

这 里 address2 为 源 操作 数 ，addressi 既是 源 操作 数 也 是 目的 操作 数 。 这 种 指令 格式 意 
味 着 从 存储 器 中 读 出 源 操作 数 ， 对 其 进行 操作 ， 并 将 结果 写 回 存储 器 中 第 一 个 源 操作 数 的 位 
置 。 指 令 app P,O 的 RTL 定义 为 

[P] é [B] + [0] 

两 地 址 指令 会 破坏 它 的 一 个 操作 数 。 也 就 是 说 ， 它 会 用 结果 替换 源 操作 数 P。 本 书 绝 大 
部 分 章节 都 约定 两 地 址 指令 的 格式 为 : 

Operation destination, source 

而 在 实际 的 计算 机 中 ， 一 般 都 不 会 允许 同一 条 指令 中 使 用 两 个 存储 地 址 。 绝 大 多 数 计算 
机 (如 Pentium 或 更 现代 一 些 的 Core i7 处 理 器 ) 都 规定 一 个 地 址 是 存储 器 地 址 ， 另 一 个 地 
址 是 寄存 器 。 寄 存 器 是 计算 机 内 的 存储 单元 ， 其 名 如 r0，rl，r2，.…，r31， 用 来 保存 计算 过 
程 中 生成 的 临时 数据 。 本 书 在 介绍 计算 机 的 结构 时 会 用 大 量 篇 幅 介 绍 寄存 器 。 

2. 单 地址 指令 

将 指令 数量 减 到 最 少 的 压力 使 得 第 一 代 计 算 机 没 能 实现 两 操作 数 指令 。 它 们 一 般 都 实现 
了 单 地 址 指令 ， 形 如 


Operation address 


由 于 指令 中 只 提供 了 一 个 操作 数 地 址 而 指令 却 需要 至 少 两 个 地 址 ， 处 理 器 不 得 不 使 用 
一 个 不 需要 显 式 地 址 的 第 二 操作 数 。 也 就 是 说 ， 第 二 个 操作 数 来 自 CPU 内 一 个 叫 作 累 加 器 
(accumulator) 的 和 寄存器。 术语 累 加 器 今天 已 经 很 少 使 用 了 ， 因 为 现在 绝 大 多 数 微 处 理 器 中 
都 带 有 几 个 片上 寄存 器 。 图 1-15 描述 了 一 条 单 操作 数 指令 执行 过 程 中 的 信息 流 。 操 作 结 果 
将 一 直 保存 在 寄存 器 中 ， 直 到 另 一 条 指令 将 它 送 入 存储器。 这 样 一 台 计 算 机 很 难 称 得 上 简 
洁 ， 如 下 面 实现 P= O +R 的 序列 所 示 。 


LOAD Q ;将 Q 中 的 数据 读 入 累加 器 
ADD R ;将 尺 与 累加 器 中 的 数据 相 加 
STORE P ;将 累加 器 的 结果 保存 在 忆 中 






指令 

在 这 个 例子 里 ， 指 令 ADD 
R 从 存储 器 中 取出 操作 数 ， 
并 将 它 与 累加 器 中 的 数 相 加 





图 1-15 单 操 作 数 指令 


在 这 个 例子 里 ， 我 们 必须 将 第 一 个 操作 数 O 载 人 累加 器 ， 与 第 二 个 操作 数 R 相 加 ， 并 
将 结果 保存 在 第 三 个 操作 数 忆 中。 请 注意 累加 器 是 怎样 成 为 瓶颈 的 ， 因 为 所 有 操作 数 都 要 流 
寻 址 方式 是 计算 机 指令 集 的 一 个 重要 特征 ， 它 是 确定 操作 数位 置 的 方法 。 例 如 ， 可 以 直 
接 ( 即 它 的 地 址 为 1234 ) 或 间接 ( 即 寄存 器 5 的 内 容 是 我 们 所 需要 的 操作 数 的 地 址 ) 给 出 操 
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作 数 的 位 置 。 第 3 章 和 第 4 章 将 详细 介绍 寻 址 方式 。 不 过 ， 在 讨论 计算 机 体系 结构 时 ， 有 时 
我 们 并 不 希望 指定 实际 的 寻 址 方式 ， 因 此 我 们 使 用 有 效 地 址 这 种 更 一 般 的 形式 。 例 如 ， 我 们 
会 说 将 有 效 地 址 处 的 数据 载 人 寄存 器 rl 中 。 之 所 以 使 用 有 效 地 址 ， 因 为 它 代 表 了 生成 操作 
数 地 址 的 所 有 不 同方 式 ， 因 而 可 以 避免 指定 某 个 特定 的 寻 址 方式 。 

3. 计算 机 的 分 类 

前 面 已 经 指出 ， 计 算 机 中 既 拥 有 能 够 存储 大 量 数据 的 主 存 ， 也 拥有 CPU 内 临时 保存 中 
间 结 果 的 寄存 器 。 第 一 代 微 处 理 器 中 大 约 有 6 个 寄存 器 ， 而 典型 的 现代 微 处 理 器 可 能 有 16 
个 、32 个 或 64 个 寄存 器 。 我 们 可 以 按照 计算 机 的 指令 处 理 数据 的 方式 对 计算 机 分 类 。 如 果 
一 条 指令 能 够 从 存储 器 中 读 出 源 操 作 数 ， 对 数据 完成 某 个 操作 ， 并 将 结果 保存 在 存储 器 中 ， 
那么 这 人 台 计 算 机 就 叫 作 是 存储 器 -存储 器 型 的 。 使 用 了 Intel IA32 CPU (8086, Pentium, 
Core i7) 的 计算 机 具有 寄存 器 - 存储 器 型 体系 结构 ， 它 们 能 够 处 理 两 个 数据 ， 其 中 一 个 位 于 
存储 器 中 ， 另 一 个 位 于 寄存 器 中 (结果 要 么 被 写 回 存储 器 ， 要 么 被 写 回 寄存 器 )。 

某 些 使 用 了 ARM 和 MIPS CPU 的 计算 机 只 能 对 寄存 器 中 的 内 容 进 行 操作 ， 称 作 是 寄存 
器 一 寄存 器 型 的 。 这 些 计算 机 必须 通过 Loa 指令 将 数据 读 人 寄存 器 并 使 用 sTors 指令 将 数 
据 从 寄存 器 送 回 存储 器 。 由 于 Loa 和 store 操作 是 仅 有 的 存储 器 访问 指令 ， 这 些 计算 机 也 
经 常 被 称 作 load/store 型 计算 机 。 后 面 我 们 还 会 看 到 寄存 器 -存储 器 型 计算 机 被 归 为 CISC 
机 器 一 类 ， 而 load-store 型 计算 机 被 归 为 RISC 机 器 一 类 。 

当 讨 论 计算 机 体系 结构 的 问题 时 ， 我 们 通常 会 用 不 同 的 微 处 理 器 作为 例子 。 然 而 ， 由 于 希 
望 学 生 们 能 够 理解 程序 是 如 何 构 造 和 执行 的 ， 我 们 一 开始 会 将 注意 力 集中 在 ARM 处 理 器 上 。 


1.6 计算 机 系统 概览 


为 了 学 习 后 面 的 章节 ， 本 节 简 要 介绍 把 CPU 变 成 计算 机 系统 的 存储 系统 和 总 线 系统 。 
计算 机 科学 家 将 存储 器 视 作 一 个 巨大 的 通过 地 址 访问 的 数组 。 例 如 ， 如 果 用 数组 M 表 示 存 
储 器 ， 那 么 它 的 第 i 个 元 素 可 以 表示 为 MI[i] 或 Mi。 存储 器 非常 重要 ， 因 为 它 的 大 小 〈 即 存 
储 容量 ) 决定 了 程序 能 够 存储 的 数据 量 ， 它 的 速度 (访问 时 间 ) 决定 了 程序 的 数据 处 理 速 率 。 
在 过 去 的 50 年 里 ， 程 序 体积 不 断 增加 ， 程 序 所 使 用 的 数据 总 量 增 加 得 更 快 。20 世纪 70 年 
代 的 飞行 模拟 器 就 是 一 个 很 好 的 例子 ， 那 时 它 还 是 非常 简单 、 仅 关注 基本 的 飞行 动作 (直线 
和 水 平 飞行 、 疏 升 、 下 降 和 转向 )。 现 代 的 飞行 模拟 器 不 仅 可 以 完成 这 些 基 本 操作 ， 还 可 以 
生成 驾驶 舱 和 外 部 世界 的 复杂 视图 。 而 且 ， 它 还 可 以 提供 一 个 覆盖 大 部 分 地 球 表面 的 详细 地 
图 。 这 样 一 个 程序 的 体积 也 从 16KB 增加 到 几 GB. 

计算 机 技术 正在 飞速 进步 ， 而 存储 技术 从 某 些 方面 来 说 却 严重 地 滞后 了 。 例 如 ， 处 理 器 
速度 的 增加 速率 远 远 超 过 了 存储 器 的 。 后 面 的 章节 将 介绍 如 何 隐藏 慢 速 存 储 器 带 来 的 问题 。 
人 们 提出 “存储 墙 ” 一 词 ， 以 说 明 存储 性 能 最 终 会 制约 处 理 器 的 性 能 9 。 


1.6.1 存储 层次 


存储 系统 的 制造 技术 种 类 繁多 ， 在 计算 机 中 随处 可 见 。 最 快 的 存储 器 能 够 在 10” 秒 内 
完成 数据 访问 ， 最 慢 的 则 会 超过 100 秒 ， 性 能 差距 为 1:10 。 为 了 便于 理解 ， 大 家 可 以 参考 
下 面 的 数据 : 我 的 步行 速度 与 导弹 的 速度 之 比 约 为 1:10`。 由 于 CPU 与 存储 器 的 性 能 之 间 
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的 差距 不 断 加 大 ， 设 计 者 们 试图 通过 在 使 用 数据 之 前 将 它们 从 存储 器 中 取出 来 消除 相对 慢 
速 的 存储 器 的 影响 ， 以 隐藏 等 待 时 间 (也 叫 作 sk i 

ER), [E 1-16 给 出 了 经 典 的 存储 层次 图 ， 展 1:28:22 2:10:40:20 000 000 

示 了 计算 机 中 存储 部 件 的 类 型 、 速 度 (访问 时 
H) 以 及 它们 在 PC 机 中 的 典型 容量 。 对 于 每 种 
部 件 ， 还 列 出 了 速度 比 和 容量 比 。 ae 


处 理 器 的 工作 数据 ， Cache 是 名 







32 个 寄存 器 A 





Fifi. TER ETA SW, 我 们 会 简要 介绍 
Cache， 因 为 它 对 决定 计算 机 的 性 能 具有 非常 关 
键 的 作用 。 

经 常 被 用 到 的 数据 保存 在 Cache 中 ，Cache 的 访问 时 间 比 主 存 短 得 多 。Cache 对 计算 机 
总 体 性 能 的 影响 也 许 与 处 理 器 体系 结构 的 影响 相同 。 尽 管 由 于 它 的 实现 细节 ，Cache 是 一 个 
非常 复杂 的 话题 ， 但 它 的 基本 操作 却 非 常 简单 。Cache 保存 着 主 存 中 经 常 使 用 的 数据 的 副本 ， 
就 像 笔记 本 和 手机 中 保存 着 常用 UR a 样 ， 以 便 我 们 能 方便 地 使 用 。Cache 系统 
与 计算 机 的 地 址 总 线 和 器 之 间 的 事务 。 a. 

只 要 Cache 注意 到 CPU 发 的 地 址 与 它 保存 的 某 个 数据 元 素 的 地 址 宰 同 ， 它 就 会 喊 道 
“我 有 这 个 数据 !” 之 后 把 这 个 数据 发 送 给 CPU ， 并 告诉 存储 器 不 要 为 此 次 访问 而 烦恼 了 。 
在 日 常生 活 中 ， 如 果 你 要 给 一 个 朋友 打 电 话 ， 你 也 会 首先 查看 你 的 地 址 短 。 如 果 他 的 名 字 不 
在 地 址 夭 中 ， 你 必须 在 一 本 更 大 的 电话 目录 中 查找 。 一 旦 找到 了 朋友 的 号 码 ， 你 就 会 将 它 记 
在 地 址 簿 中 ， 当 你 下 次 要 给 他 打 电 话 时 就 可 以 节约 时 间 了 。 

将 Cache 与 地 址 簿 类 比 是 比较 准确 的 。 地 址 德 非常 有 用 ， 因 为 你 经 常 要 打 电 话 的 人 数 仅 
仅 是 那些 有 电话 的 人 中 的 很 小 一 个 子 集 ， 并 且 你 会 发 现 你 90% 的 电话 都 是 打 给 地 址 每 上 的 
人 的 。 另 一 个 很 好 的 类 比 是 当 你 购买 了 一 本 新 的 地 址 短 时 ， 上 面 没 有 任何 名 字 ， 当 你 第 一 
给 某 人 打 电 话 时 ， 你 必须 把 他 的 名 字 记 到 地 址 短 上 。 地 址 短 说 明了 Cache 设计 的 另 一 个 问 
题 。 假 设 你 将 所 有 名 字 以 “S” 开 头 的 朋友 记 在 “SS 页 ”上 上。 现在， 如 果 你 碰 到 了 某 个 名 字 
也 是 以 “S$” 开 头 的 人 ， 你 就 会 面临 一 个 问题 。 你 依次 查看 那些 以 “S$” 开 头 的 姓名 并 且说 ， 

“这 家 伙 今 年 没有 给 我 寄生 日 贺卡 ; 他 已 经 成 为 历史 了 。” 按 照 Cache 的 术语 ， 当 Cache 中 填 
满 数据 元 素 时 ， 你 必须 删 去 某 个 旧 的 数据 ， 以 便 腾 出 空间 容纳 新 的 数据 。 

人 类 世界 与 Cache 还 有 另外 一 种 类 比 。 你 也 许 会 随身 携带 一 本 记载 了 你 最 重要 朋友 的 地 
址 禾 ， 而 将 男 外 一 本 放 在 办 公 桌 上 。 当 你 想 给 某 个 朋友 打 电 话 时 ， 你 首先 会 查找 你 个 人 地 址 
短 中 的 姓名 。 如 果 那 里 没有 ， 你 会 去 试 着 查找 桌子 上 那 本 。 多 个 地 址 憩 类 似 于 多 级 Cache. 
处 理 器 会 访问 快速 的 Ll (一 级 ) Cache， 它 是 CPU 的 一 部 分 ， 并 希望 92% 的 信息 都 会 在 那 
里 找到 。 如 果 数 据 不 在 LI1 Cache 中 ， 则 会 去 访问 容量 更 大 但 速度 更 慢 的 L2 (二 级 ) Cache. 
也 许 在 那里 找到 数据 的 概率 为 98%。 如 果 这 次 访问 也 失败 了 ， 计 算 机 也 许 还 会 去 另外 一 个 
Cache 中 查找 一 一 三 级 Cache。 如 果 那 里 也 没有 ， 就 只 能 从 主 存 中 取出 这 个 数据 了 。 

Cache 与 地 址 短 之 间 也 还 有 另外 一 种 类 比 。 假 设 某 人 有 3 个 地 址 秒 。 当 他 结识 了 一 位 新 
朋友 后 ， 他 会 将 名 字 写 入 3 本 地 址 短 中 。 如 果 这 个 朋友 搬家 了 ， 他 可 能 只 更 新 了 一 个 地 址 簿 


图 1-16 存储 层次 
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而 忘记 去 更 新 另外 两 个 。 当 他 从 办 公 室 给 这 位 朋友 电话 时 ， 他 可 能 会 拨打 旧 的 号 码 ， 因 为 他 
PFGE ASEAN, DANEI Ceone PRATER, OER 
所 关注 的 主要 问题 。 

我 们 还 会 讨论 存放 正在 执行 的 程序 的 主 存 。 它 是 由 一 种 叫 作 卉 








态 随机 访问 存储 器 _ 





3 Ti 新 汉 的 存储 技术 ,特别 是 那 种 掉 电 了 数据 
依然 还 在 的 非 易 失 性 存储 器 。 这 种 存储 器 对 于 MP3 播放 器 和 数码 相机 之 类 的 便携 式 应 用 非 
常 重要 。 


1.6.2 总线 

总 线 将 计算 机 的 两 个 或 多 个 功能 单元 连接 在 一 起 并 允许 它们 相互 交换 数据 (例如 CPU 
与 显卡 之 间 的 总 线 )。 总 线 还 将 计算 机 与 外 设 连接 在 一 起 (例如 将 打印 机 接 入 计算 机 的 USB 
总 线 )。 总 线 是 计算 机 系统 非常 重要 的 组 成 部 分 ， 因 此 《计算 机 存储 与 外 设 》 第 4 章 的 大 部 
分 内 容 都 用 来 讨论 计算 机 总 线 。 本 节 将 简要 介绍 总 线 并 强调 若干 相关 概念 。 
图 1-17 描述 了 一 个 没有 总 线 的 假想 系统 的 结构 。 假 设 其 中 带 阴影 的 圆圈 代表 那些 必须 
与 其 他 单元 通信 的 处 理 单元 。 在 这 个 例子 里 ， 一 些 单元 只 能 与 另外 一 个 单元 通信 ， 而 其 他 单 
元 必须 与 另外 几 个 单元 通信 。 正 如 读者 所 看 到 的 那样 ， 结 点 之 间 的 互 连 复杂 并 且 凌 乱 。 而 
且 ， 若 要 向 该 系统 中 增加 一 个 新 的 单元 ， 必 须 在 这 个 新 单元 与 它 所 连接 的 每 一 个 单元 之 间 增 
加 一 条 新 的 连 线 。 

图 1-18 展示 了 通过 公共 总 线 将 所 有 单元 连接 在 一 起 的 好 处 。 此 时 只 有 一 条 高 速 数据 通 
路 ， 每 个 单元 通过 一 个 接口 与 这 条 通路 相连 。 





图 1-18 连接 所 有 单元 的 公共 总 线 
BAe Ra I E a 









RARAN WRAAE PR A, EMI AN ARS A : 
= zc. MEA AAA eT 资源 (本 例 中 是 总 线 ) 的 过 程 。 一 
些 系统 使 用 一 个 名 为 仲裁 器 的 专用 部 件 来 决定 允许 哪个 设备 继续 工作 ， 而 其 他 竞争 者 只 能 等 


待 轮 到 自己 。 le 
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| 控制 通路 或 者 甚至 是 电源 线 )。 
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现代 计算 机 中 有 多 条 总 线 ， 包括 片 内 总 线 功能 单元 间 (如 CPU 和 存储 器 间 ) 的 总 线 以 
及 总 线 间 的 总 线 。 

图 1-19 描述 了 一 个 多 总 线 系 统 。 处 理 器 中 通过 
总 线 A 进行 通信 。 第 二 条 总 线 B， 通 过 一 个 总 线 接 





口 部 件 连接 到 总 线 A 上 。 为 什么 要 使 用 两 条 总 线 ? 
首先 ， 多 条 总 线 允 许 并 发 操作 。 例 如 ， 两 个 设备 可 Pe 


以 通过 总 线 A 相互 通信 ， 与 此 同时 男 一 对 设备 可 以 
通过 总 线 B 相互 通信 。 一 个 更 重要 的 原因 在 于 这 些 
总 线 可 能 具有 完全 不 同 的 特点 和 操作 速度 。 

一 台 计 算 机 可 能 拥有 完整 的 总 线 层 
每 条 总 线 都 面向 其 预期 应 用 进行 了 优化 。 计 算 机 中 
速度 最 快 的 总 线 是 那些 与 高 速 存储 或 视频 设备 通信 的 。 这 些 总 线 的 设计 和 结构 必须 面向 速 
度 专门 优化 。 另 一 些 总 线 则 担任 不 同 的 角色 (如 将 计算 机 与 大 量 外 设 连 在 一 起 )。USB 和 
FireWire 总 线 都 是 非常 典型 的 、 专 门 为 了 某 些 功 能 而 设计 的 低 开 销 总 线 的 实例 。 这 些 总 线 的 
通路 长 度 比 存储 总 线 长 得 多 。 本 书 最 后 一 部 分 将 非常 详细 地 讨论 总 线 及 其 体系 结构 。 

标准 和 协议 是 本 书 中 两 个 经 常 讨论 的 主题 (特别 是 当 讨 论 存 储 接口 、 总 线 和 1/O 技术 
时 )。 标 准 是 一 种 约定 好 的 设计 系统 、 定 义 系统 或 对 其 他 任何 方面 进行 分 类 的 方式 。 标 准 在 
日 常生 活 中 非常 重要 。 例 如 ,为 了 允许 人 们 将 电子 设备 从 一 个 地 方 移 到 第 一 个 地 方 ， 电 源 插 
座 和 插头 必须 符合 约定 的 标准 。 即 便 是 我 们 通常 不 考虑 的 一 些 因素 (比如 机 场 跑 道 和 滑行 道 
上 的 灯 和 标记 ) 也 是 标准 化 的 ， 这 样 只 要 飞行 员 知 道 两 个 城市 标记 的 含义 完全 相同 ， 他 就 可 
以 离开 北京 抵达 波士顿 。° 计 算 标 准 指明 了 插头 和 插座 (比如 USB) 的 物理 尺寸 、 电 压 和 电 
路 表示 信和 号， 以 及 数据 交换 过 程 中 的 信和 号 序列 。 

协议 与 标准 类 似 ， 但 它 覆 盖 的 范围 较 窗 。 协 议决 定 了 双方 通信 时 各 事件 的 发 生 顺 序 。 例 
如 ， 当 计算 机 将 数据 发 送 给 存储 器 时 ， 写 协议 定义 了 信和 号 序列 (地 址 、 写 命令 、 要 保存 的 数 
据 ) 以 及 信和 号 的 最 长 和 最 短 持续 时 间 。 

下 一 章 将 介绍 数字 是 如 何在 计算 机 中 表示 的 ， 以 及 适用 于 这 些 数字 的 操作 类 型 。 我 们 还 
会 介绍 基本 电路 元 素 、 门 和 触发 器 ， 并 说 明 如 何 利用 它们 搭建 计算 机 的 基本 电路 。 实 际 上 ， 
如 果 将 本 章 中 对 计算 机 的 介绍 与 下 一 章 中 对 简单 电路 的 介绍 合并 在 一 起 ， 读 者 将 会 了 解 计算 
机 是 如 何 工 作 的 。 尽 管 今天 的 数字 计算 机 极其 复杂 ， 它 们 (原则 上 ) 仍然 是 非常 简单 的 设备 。 
其 复杂 性 在 于 那些 精细 的 细节 以 及 试图 用 来 加 速 计算 机 操作 的 手段 (比如 在 完成 测试 之 前 对 
其 结果 进行 预测 ) 。 








图 1-19 双 互 连 总 线 系统 


O 在 美国 ， 有 的 十 字 路 口 会 有 一 个 计时 器 ， 它 会 递减 到 0， 告 诉 行人 在 车 辆 启动 之 前 还 有 多 少 长 时 间 可 以 穿 过 
马路 。 这 在 欧洲 并 不 多 见 ， 但 我 曾 在 阿姆斯特丹 碰 到 一 个 。 当 时 计时 器 还 剩 10 秒 ， 因 此 我 想 我 可 以 飞快 地 
跑 过 马路 ,结果 我 才 过 了 一 半 就 差点 儿 被 有 轨 电 车 压 扁 。 在 阿姆斯特丹 ， 计 时 器 上 的 时 间 是 信号 灯 变 为 停车 
灯 之 前 的 时 间 ， 而 不 是 行人 过 马路 的 剩余 时 间 。 这 个 例子 中 不 同 的 标准 几乎 剥夺 了 我 的 生命 。 
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1.7 现代 计算 

计算 机 系统 体系 结构 是 一 个 不 断 发 展 的 领域 ， 但 它 各 个 方面 的 发 展 是 不 均衡 的 。 例 如 ， 
在 《计算 机 存储 与 外 设 》 第 3 章 介绍 磁盘 时 我 们 将 看 到 ， 尽 管 这 些 年 来 磁盘 容量 得 到 了 巨大 
的 增长 ， 但 磁盘 速度 或 磁盘 访问 时 间 却 几 乎 维持 不 变 。 不 过 一 种 叫 作 固态 盘 的 新 技术 改变 了 
这 种 局 面 ， 磁 盘 速度 也 开始 提高 。 因 此 ， 我 们 将 更 加 关注 计算 机 系统 的 某 些 方面 而 不 是 全 部 。 

性 能 和 能 耗 是 今天 人 们 尤其 感 兴趣 的 两 个 方面 。 几 十 年 前 计算 机 的 设计 目标 就 是 获得 计 
算 能 力 一 一 在 微 处 理 器 发 展 的 早期 ， 有 计算 能 力 总 比 什么 都 没有 要 好 。 今 天 ， 微 处 理 器 已 经 
非常 成 熟 ， 而 且 需 要 比 以 往 更 高 的 性 能 ， 因 为 它 所 承担 的 任务 越 来 越 有 挑战 性 ， 比 如 高 分 状 
率 和 高 性 能 游戏 等 应 用 领域 。 因 此 本 书 将 重点 关注 性 能 ， 比 如 怎样 测量 性 能 以 及 怎样 创造 
性 能 。 

我 们 还 生活 在 一 个 普 适 计算 的 世界 中 。 计 算 机 无 处 不 在 一 一 它 在 超级 计算 实验 室 、 大 学 、 
工厂 、 家 庭 办 公 室 、 儿 乎 所 有 的 家 用 电器 、 电 视 和 显示 系统 、 音 乐 和 娱乐 系统 ， 以 及 手机 里 。 
这 种 普 适 计算 会 带 来 两 个 需求 。 第 一 个 是 可 连接 性 。 如 果 要 在 一 些 设备 之 间 共 享 数据 ， 那 么 
必须 能 够 将 它们 连 在 一 起 。 例 如 ， 人 们 经 常 通过 无 线 网 络 将 数码 相机 、MP3 播放 器 、 个 人 电 
脑 和 电视 机 连接 起 来 。 普 适 计算 带 来 的 另 一 个 需求 是 由 为 MP3 播放 器 那样 的 微小 设备 供电 
( 即 能 源 ) 所 引起 的 。 人 们 希望 能 将 它们 装 在 口袋 里 ， 用 它们 看 视频 ， 还 希望 它们 用 一 小 块 电 
池 就 能 续航 8 小 时 。 有 时 人 们 对 计算 机 发 展 的 期 望 远 远 超过 计算 机 性 能 的 提升 。 减 少 能 耗 的 
需求 使 设计 者 不 得 不 寻找 解决 能 效 更 高 的 计算 问题 解决 方法 。 读 者 在 最 后 一 章 将 会 看 到 ， 能 
耗 的 制约 是 如 何 导 致 拥有 多 个 片上 处 理 器 的 微 处 理 器 ( 称 作 多 核 处 理 器 ) 的 出 现 和 发 展 的 。 

最 后 ， 计 算 机 系统 体系 结构 研究 与 发 展 目前 所 关注 的 一 些 焦点 间 题 也 是 由 计算 能 力 飞速 
增长 所 引发 的 一 些 制约 而 引起 的 。 在 存储 墙 一 词 中 我 们 已 经 使 用 了 墙 这 个 术语 ， 它 表示 处 理 
器 的 速度 增长 远 远 快 于 存储 器 ， 这 使 得 处 理 器 不 得 不 停 下 来 等 待 存储 器 取出 数据 。 本 书 中 有 
好 几 处 会 将 如 何 处 理 存储 墙 所 带 来 的 问题 作为 主要 议题 。 另 外 一 堵 墙 则 是 由 功 耗 约束 引起 的 
(无 法 冷却 现代 芯片 )。 


本 章 小 结 

本 书 着 重 关注 计算 机 系统 体系 结构 ， 即 一 个 完整 计算 机 系统 从 中 央 处 理 单元 到 磁盘 和 外 
设 的 全 部 内 部 操作 。 

为 了 更 好 地 理解 计算 时 发 生 了 什么 ， 必 须 弄 清 楚 计算 机 体系 结构 与 计算 机 组 成 之 间 的 区 
别 。 计 算 机 体系 结构 关注 汇编 语言 程序 员 层 次 的 计算 机 操作 ， 并 提供 了 一 个 理想 的 、 抽 象 的 
计算 机 视图 。 计 算 机 组 成 则 关注 如 何 用 真正 的 门 和 电路 实现 体系 结构 。 尽 管 原 则 上 体系 结构 
与 组 成 无 关 ， 它 们 却 的 确 是 相互 影响 的 。 

本 章 介 绍 了 存储 程序 计算 机 ， 并 描述 了 它 是 如 何 从 存储 器 中 读 出 指令 ， 一 条 一 条 地 执行 
这 些 指令 ， 并 处 理 与 指令 存放 在 同一 存储 器 中 的 数据 的 。 本 章 解决 了 一 个 简单 的 问题 ， 并 说 
明 计算 机 仅 需 要 一 个 类 型 相对 较 少 的 操作 集合 。 

存储 程序 计算 机 是 一 个 小 而 简单 的 设备 。 它 从 存储 设备 中 读 出 1/0 二 进 制 串 ， 并 执行 这 
些 1 和 0 所 定义 的 操作 。 计 算 机 所 完成 的 操作 一 般 包括 一 个 动作 (如 加 或 减 ) 以 及 参加 计算 
的 数据 的 地 址 或 位 置 。 读 者 还 看 到 了 计算 机 必须 包括 某 些 提供 条 件 操作 的 机 制 ， 这 是 一 种 使 
用 数据 操作 结果 决定 接 下 来 应 该 执行 两 个 动作 序列 中 哪 一 个 的 手段 。 
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本 章 还 包括 一 段 简单 的 计算 机 发 展 历史 。 人 们 从 来 没有 发 明 过 现在 被 称 为 计算 机 的 设 
备 。 计 算 机 来 自 一 系列 发 展 ， 每 次 新 的 发 展 都 采用 过 去 提出 的 思想 ， 并 采用 更 加 现代 的 技术 
加 以 实现 。20 世纪 40 年 代 的 早期 计算 机 并 不 符合 现在 的 标准 ， 因 为 它们 不 能 运行 不 同 的 程 
Æ, 或 注定 只 能 一 遍 遍 地 完成 同样 的 操作 序列 ( 即 它们 没有 提供 必要 的 条 件 操作 以 允许 程序 
响应 输入 )。 

到 1950 年 ， 计 算 机 与 今天 的 计算 机 已 经 非常 相似 了 一 一 至 少 在 原理 上 。 所 变化 的 仅仅 
是 计算 机 在 技术 、 内 部 组 成 和 外 设 上 的 发 展 方式 。 


习题 

1.1 a 专用 计算 机 与 通用 计算 机 有 什么 区 别 ? 

b. 飞机 的 自动 驾驶 仪 是 专用 计算 机 还 是 通用 计算 机 的 实例 ? 

1.2 为 什么 我 们 说 计算 机 内 用 来 表示 指令 的 1/0 二 进 制 序列 并 没有 内 在 意义 ?这 句 话 隐 含 的 意思 是 
什么 ? 

1.3 为 什么 计算 机 的 性 能 非常 依赖 如 半导体 、 磁 、 光 、 化 学 等 一 系列 技术 ? 

1.4 修改 本 章 所 用 的 算法 ， 使 之 能 够 找到 最 长 的 非 连续 字符 序列 的 位 置 。 

1.5 我 曾经 批评 过 “查尔斯 巴 贝 奇 是 计算 机 发 明 者 ”这 一 说 法 。 我 批评 这 一 说 法 的 理由 是 巴 贝 奇 设 
计 的 计算 机 完全 是 机 械 的 (轮子 、 齿 轮 和 机 械 联动 )， 而 一 台 真正 的 计算 机 应 该 是 电子 的 。 我 的 批 
评 对 中? 

1.6 以 下 RTL 指令 序列 的 结果 是 什么 ? 描述 每 一 条 RTL 指令 的 功能 ， 并 说 出 这 个 指令 序列 的 作用 。 注 
意 ，[x] 表示 地 址 为 x 的 存储 单元 的 内 容 。 

As [Li] a—1 

b. [2] = 4 

c. [3] — [1] + [2] -3 
d. [4] = [2] 

e. [5] — [[3]] 

f- [6] + [[2] + 1] 

1.7 RTL 语言 、 机 咒语 言 、 汇 编 语言 、 高 级 语言 和 伪 码 的 区 别 是 什么 ? 

1.8 什么 是 存储 程序 计算 机 ? 

1.9 我 坚持 认为 条 件 操作 是 计算 机 之 所 以 为 计算 机 的 关键 要 素 。 在 机 器 一 级 ， 条 件 操作 是 通过 诸如 
BEQ xyz (为 0 则 跳 转 到 指令 XYZ) 那样 的 指令 实现 的 ， 而 在 高 级 语言 一 级 ， 它 是 通过 IF x-y 
then do THIS else do THAT 之 类 的 语句 实现 的 。 为 什么 这 种 条 件 操作 是 计算 所 必需 的 ? 

1.10 单 地 址 、 双 地 址 和 三 地 址 计算 机 体系 结构 各 有 什么 优点 ? 

1.11 a 计算 机 体系 结构 与 它 的 组 成 之 间 有 什么 区 别 ? 

b. 除了 计算 机 外 ， 你 能 想 出 还 有 哪些 系统 既 有 体系 结构 也 有 组 成 ? 

1.12 外 体系 结构 与 内 体系 结构 有 何 区 别 ? 

1.13 这 些 年 来 ,计算 机 的 发 展 是 在 计算 机 体系 结构 方面 更 多 一 些 ， 还 是 在 计算 机 组 成 方面 更 多 一 些 ? 

1.14 人 类 的 记忆 与 计算 机 的 存储 器 之 间 有 何不 同 ? 

1.15 什么 是 冯 “' 诺 依 曼 瓶 颈 ? 

1.16 假设 Intel 没有 开发 出 第 一 个 微 处 理 器 ， 微 处 理 器 是 否 仍 然 会 不 可 避免 地 出 现 ? 

1.17 尽 可 能 地 列举 出 你 能 想到 的 制造 计算 机 的 所 有 使 能 技术 。 

1.18 什么 是 语义 鸿沟 ? 它 在 计算 机 体系 结构 中 的 重要 性 体现 在 哪里 ?要 回答 这 一 问题 ， 你 需要 在 
Internet 上 或 在 图 书馆 里 查阅 相关 资料 。 

1.19 假设 巴 贝 奇 成 功 地 制造 出 了 一 台 每 秒 完成 一 个 操作 的 通用 机 械 式 计算 机 。 你 认为 这 台 计 算 机 会 对 


巴 贝 奇 所 处 的 维多利亚 时 代 社 会 产生 怎样 的 影响 (如果 的 确 有 影响 的 话 ) ? 
1.20 使 用 有 限 差分 方法 计算 17 的 值 。 
1.21 扩展 下 表 的 有 线 差 分 方法 ， 计 算 117 和 12 的 值 。 


数 数 的 平方 第 一 次 差分 ”第 二 次 差分 数 的 平方 第 一 次 差分 ”第 二 次 差分 





l ] 25 9 2 
2 4 3 36 11 2 
3 9 5 2 49 13 2 
4 16 7 2 


1.22 若 你 决定 试 着 将 计算 机 变 得 更 加 “人 性 ”并 引入 了 “随机 元 素 ”。 你 应 该 如 何 去 做 ? 

1.23 计算 机 总 是 育 目 遵循 逻辑 规则 一 一 执行 同样 的 程序 总 会 得 到 相同 的 答案 。 这 就 是 计算 机 教材 上 所 
说 的 。 但 这 是 真 的 吗 ” 我 的 计算 机 在 不 同 的 场合 就 会 有 不 同 的 行为 。 为 什么 你 会 认为 这 是 有 可 
能 的 ? 

1.24 六 的 值 为 7。 一 些 计 算 机 语言 (或 符号 ) 将 XH 解释 为 8， 而 另 一 些 则 将 它 解 释 为 Z。 为 什么 ? 

1.25 进行 必要 的 资料 收集 ， 并 摆 写 一 篇 有 关 计算 机 存储 系统 发 展 的 论文 (例如 CRT 内 存 ， 延 迟 线 存储 
器 ， 铁 氧 体 磁 芯 存储 器 ， 等 等 ) 。 

1.26 为 什么 总 线 对 计算 机 非常 重要 ? 

1.27 我 们 经 常会 听 到 一 些 有 关 CPU 的 大 小 、 功 耗 、 速 度 的 进步 推动 了 计算 机 革命 的 争论 。 计 算 机 系 
统 还 有 哪些 方面 推动 了 计算 机 革命 ? 

1.28 计算 机 在 哪些 领域 的 应 用 最 成 功 ” 在 哪些 领域 的 应 用 最 不 成 功 或 甚至 根本 没 用 ? 

1.29 你 认为 计算 机 发 展 (在 计算 能 力 以 及 它 的 能 力 /应 用 等 方面 ) 的 瓶颈 (限制 或 障碍 ) 在 哪里 ? 

1.30 a. 摩尔 定律 是 准则 吗 ? 

b. 为 什么 你 认为 摩尔 定律 是 “存在 的 ”? 到 底 是 什么 在 驱动 着 摩尔 定律 或 使 它 成 为 可 能 ? 
1.31 按照 现在 的 标准 判断 ， 你 认为 所 有 的 早期 计算 机 中 哪 一 台 计 算 机 才 应 该 被 称 作 “第 一 台 计 算 机 ”? 
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“我 常 说 : 当 你 能 衡量 你 正在 谈论 的 东西 并 能 用 数字 加 以 表达 时 ， 你 才 真 的 对 它 有 了 几 
分 了 解 ; 而 当 你 还 不 能 测量 ， 也 不 能 用 数字 表达 时 ， 你 的 了 解 就 是 肤浅 的 和 不 能 令 人 满意 
的 。 尽 管 了 解 也 许 是 认 知 的 开始 ， 但 在 思想 上 则 很 难说 你 已 经 进入 了 科学 的 阶段 。” 
—Lord Kelvin 


“没有 测量 就 没有 控制 。 
—Tom DeMarco, 1982 


— KE BB 


“可 以 有 数据 无 操作 ， 但 不 能 有 操作 无 数据 。” 
一 一 佚名 


“四 使 五 入 的 数字 总 是 错 的 。” 
—Samuel Johnson 


前 面 已 经 介绍 了 计算 机 ， 并 解释 了 它 能 够 处 理 存放 在 存储 器 中 的 数据 。 本 章 将 更 详细 地 
介绍 计算 机 所 处 理 的 数据 。 在 本 书 的 第 二 部 分 ， 读 者 还 将 看 到 处 理 器 是 怎样 执行 指令 的 。 

我 们 首先 介绍 信息 的 表示 ， 因 为 它们 对 后 面 的 大 部 分 内 容 有 重要 意义 。 人 们 用 来 表示 信 
息 的 方式 一 一 无 论 是 数字 数据 、 文 本 数据 或 多 媒体 数据 (比如 声音 和 视频 )， 对 计算 机 体系 
结构 都 有 重要 影响 。 数 据 表 示 决 定 了 计算 机 所 执行 操作 的 类 型 ， 数 据 从 一 个 位 置 传 到 另 一 个 
位 置 的 方法 ， 以 及 对 存储 元 件 的 特性 要 求 。 

第 2 章 将 从 数字 表示 和 计算 机 运算 开始 。 计 算 机 简单 地 将 数字 和 其 他 所 有 信息 都 表示 为 
二 进 制 形式 ， 因 为 经 济 地 设计 和 制造 复杂 的 大 规模 二 进 制 电路 是 比较 容易 的 。 读 者 将 看 到 二 
进 制 整数 和 负数 、 小 数值 以 及 像 天 那样 的 无 理 数 的 表示 等 内 容 ， 还 会 看 到 加 、 减 、 乘 、 除 等 
基本 运算 操作 。 

本 章 专门 用 一 节 介绍 浮 点 运算 ， 使 读者 能 处 理科 学 计算 中 1.3453 x 10” 那样 很 大 的 数 和 
很 小 的 数 。 浮 点 运算 是 非常 重要 的 ， 因 为 它 的 实现 决定 了 计算 机 执行 复杂 图 形变 换 和 图 像 处 
理 的 速度 ， 而 且 浮 点 运算 对 计算 的 ; 。 在 介绍 了 浮 点 数 之 后 ， 我 们 还 
会 简要 介绍 一 些 影响 形 如 (p-q)(x+y) 的 链 式 计算 以 及 超越 函数 和 三 角 函 数 精度 的 因素 。 

人 们 所 能 描述 的 任何 事物 都 可 以 被 转换 为 二 进 制 形式 并 由 计算 机 处 理 。 计 算 机 中 的 数据 
可 以 表示 各 种 信息 ， 从 本 书 中 的 纯 文本 到 算术 运算 中 的 数字 ,到 CD-ROM 中 的 音乐 或 者 到 
电影 。 计 算 机 有 着 不 同 的 用 途 ， 可 以 帮 好 莱 坞 艺术 家 制作 出 虚拟 的 人 群 场景 ， 也 可 以 帮 男 一 
些 人 计算 按揭 付款 。 然 而 在 这 些 应 用 里 ， 计 算 机 都 是 对 相同 类 型 的 数据 (比特 ) 进行 同样 的 
基本 操作 。 
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本 章 将 介绍 如 何 用 1 和 0 组 成 的 串 来 表示 信息 ， 特 别 是 数 的 表示 以 及 数 的 处 理 方式 。 

我 们 将 使 用 术语 “计算 机 ”， 而 不 必 担 心 会 产生 任何 歧义 。40 年 前 或 更 早 以 前 ， 人 们 必 
须 在 计算 机 前 加 上 模拟 或 数字 以 区 分 那 时 的 两 种 完全 不 同 的 计算 机 一 一 模拟 计算 机 和 数字 计 
算 机 。 我 们 从 以 下 几 个 问题 开始 介绍 : 为 什么 计算 机 是 数字 的 ， 为 什么 计算 机 设计 者 最 终 选 
择 了 二 进 制 系统 ， 以 及 信息 是 如 何在 计算 机 内 表示 的 。 

计算 机 最 初 被 设计 为 计算 器 ， 使 人 们 能 更 容易 地 完成 兄长 乏味 的 算术 运算 。 人 们 习惯 用 
十 进 制 表示 数字 ， 因 此 我 们 会 解释 为 什么 数据 要 从 日 常 的 十 进 制 表示 转换 为 能 被 计算 机 存储 
和 处 理 的 形式 ， 我 们 还 会 说 明 计算 机 如 何 表示 负数 和 正 数 。 本 章 还 会 介绍 计算 机 如 何 实现 加 
减法 ， 以 及 更 复杂 的 乘除 法 操作 。 

必须 强调 的 是 ， 二 进 制 数 和 二 进 制 运算 并 不 神奇 。 数 字 计 算 机 和 二 进 制 运 算 的 出 现 仅仅 
是 因为 相应 的 技术 实现 起 来 非常 划算 。 计 算 机 的 算术 运算 与 日 常生 活 中 的 一 样 一 一 如 果 你 有 
7 个 苹果 并 且 吃 了 1 个 ， 那 么 还 剩 OT. FIR Tw Ie. GFT RRM. RRA, 
还 是 用 计算 机 ， 结 果 都 一 样 。 

计算 机 中 , 1992347119845 , 0.00000000000000000000342 , 1.234 x 10° 或 -1.3428 x 10 
那样 很 大 或 很 小 的 数 都 是 通过 浮 点 运算 的 机 制 来 处 理 的 。 我 们 介绍 了 数字 计算 机 是 如 何 存储 
和 处 理 这 些 数据 的 。 不 过 ， 因 为 浮 点 数 可 能 只 是 其 真实 值 的 近似 ， 我 们 将 讨论 浮 点 运算 的 误 
差 来 源 以 及 在 进行 混合 运算 时 误差 是 如 何 传播 的 。 我 们 还 会 讨论 计算 机 实现 平方 根 、sin 和 
cos 等 数学 困 数 的 方法 。 


2.1 数据 是 什么 


数据 是 各 种 各 样 的 信息 ， 如 数字 、 文 本 、 计 算 机 程序 、 音 乐 、 图 像 、 符 号 、 运 动 图 像 、 
DNA 密码 ， 等 等 。 实 际 上 ， 信 息 可 以 是 能 够 被 计算 机 存储 和 处 理 的 任何 事物 。 本 节 将 介绍 
位 (bit， 或 比特 ) 的 概念 并 说 明 如 何 用 它 表 示 信 息 。 


2.1.1 位 与 字 节 

计算 机 内 存储 和 处 理 信息 的 最 小 单位 是 全 n ， 或 比特 )， 它 是 BInary digiT (二 进 制 数 ) 
这 个 词 的 缩写 。 一 个 比特 的 值 可 以 是 0 或 1， 它 是 不 可 分 的 ， 因 为 不 能 再 将 它 分 为 更 小 的 信 
息 单位 。 


数字 计算 机 将 信息 以 一 组 或 一 串 比特 ( 称 作 字 ) 的 形式 保存 在 存储 器 中 。 例 如 ， 串 
01011110 表示 一 个 8 位 的 字 。 按 照 习惯 ,我 们 以 最 低位 在 最 右 端 的 方式 书写 二 进 制 串 。 

如 果 计 算 机 像 人 一 样 以 十 进 制 的 方式 进行 运算 ,解释 计算 机 是 如 何 工 作 的 可 能 要 容易 一 
些 ， 简 单 地 以 日 常生 活 中 的 运算 举例 就 可 以 了 。 但 要 制造 这 样 一 台 计 算 机 需要 电路 能 够 存储 
和 处 理 10 个 十 进 制 数 0 一 9。 目 前 人 们 还 不 能 制造 出 价格 便宜 的 、 能 够 可 靠 地 区 分 出 十 个 
不 同 电压 等 级 的 电路 ， 只 能 制造 出 便宜 的 、 能 够 区 分 我 们 称 之 为 0 和 1 的 两 个 电压 等 级 的 
电路 。 


数据 

本 书 没有 足够 的 篇 幅 深入 讨论 数据 、 信 息 和 知识 这 3 个 相关 概念 的 细节 。 术 语 “ 数 
据 ” 是 指 表示 值 或 变量 的 一 个 或 一 组 测量 结果 。 

本 书 使 用 术语 “数据 ”表示 存储 在 计算 机 内 的 二 进 制 信息 。 这 里 的 数据 可 以 表示 数 
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字 、 指 令 、 图 像 或 其 他 任何 可 以 以 数字 形式 表示 的 信息 。 

“信息 ”通常 作为 数据 的 同义词 使 用 。 不 过 ， 信 息 这 个 术语 还 意味 着 数据 有 菜 种 形 
AMR, HARE P, PAH (AM) 与 它 的 概率 有 关 。 信 息 论 是 由 克 劳 
德 . 香 依 【Claud Shannon) 提出 的 ， 它 的 重要 意义 在 于 告诉 人 们 信息 在 一 个 有 骂 声 的 通 
| 道内 的 传输 速度 有 多 快 。 

“知识 ”是 人 脑 作用 于 信息 后 的 一 种 结构 ， 是 比 信息 和 数据 高 级 得 多 的 抽象 。 


计算 机 通常 不 会 每 次 只 对 一 个 二 进 制 位 进行 操作 ， 它 们 会 对 一 组 二 进 制 位 ?进行 操作 。 
8 个 二 进 制 位 为 一 个 字 节 (byte)。 现 在 的 微 处 理 器 都 是 面向 字 节 的 ， 其 字 长 是 8 位 的 整数 倍 
( 即 它们 的 数据 和 地 址 是 8、16、32、64 BK 128 位 )。 一 个 字 可 以 是 2 个 、4 个 或 8 个 字 节 长 ， 
因为 它 的 所 有 位 可 以 被 分 别 组 织 为 2 个 、4 个 或 8 个 8 位 的 组 。 

一 般 来 讲 ， 计 算 机 能 够 同时 处 理 的 位 数 越 多 ， 它 的 速度 就 会 越 快 。 随 着 计算 机 的 速度 越 
来 越 快 ， 价 格 越 来 越 低 ， 一 台 计 算 机 一 次 能 处 理 的 位 的 组 数 也 越 来 越 多 。20 世纪 70 年 代 第 
一 个 微 处 理 器 一 次 只 能 处 理 4 位 数据 ， 而 到 了 20 世纪 90 年 代 初 ，64 位 微机 已 开始 进入 个 
人 电脑 市 场 ， 一 些 显卡 还 能 处 理 128 位 或 256 位 宽 的 数据 8 。 

一 些 计算 机 制造 商用 术语 “ 字 ”(word) 表示 16 位 的 值 (与 字 节 对 应 ， 字 节 是 8 位 的 值 )， 
长 字 表示 32 位 的 值 。 还 有 一 些 制造 商 则 用 字 表 示 32 位 的 值 ， 用 半 字 表示 16 位 的 值 。 本 教 
材 一 般 用 字 表示 一 台 计 算 机 能 处 理 的 信息 的 基本 单位 。 


2.1.2 ”位 模式 

前 面 已 经 提 到 过 ， 一 串 二 进 制 位 可 以 表示 任何 数据 。 读 者 自然 会 问 表 示 某 个 数据 需要 多 
少 位 。 如 果 要 将 一 天 中 的 小 时 表示 为 24 个 不 同 值 中 的 一 个 (BNO ~ 23 )， 共 需要 多 少 位 ? 如 
何 指定 这 些 数 字 对 应 的 位 模式 ? 

图 2-1 描述 了 如 何 用 1 位 、 2 位、3 位 和 4 位 得 到 一 个 二 进 制 的 值 序列 。 我 们 从 图 2-1 
最 左边 只 有 一 位 的 情况 开始 ， 这 时 可 以 沿 着 两 条 路 径 中 的 一 条 前 进 一 一 向 上 表示 该 位 为 0 而 
向 下 表示 该 位 为 1。 增 加 第 2 位 将 得 到 4 条 从 起 点 开始 到 状态 00，01，10 和 11 的 路 径 。 增 
加 第 3 位 将 得 到 抵达 状态 000，001，010，011，100，101，110 和 111 的 8 条 路 径 。 最 后 ， 
增加 第 4 位 将 得 到 从 状态 0000 到 1111 的 16 条 路 径 。 

每 当 数字 增加 1 位 时 ， 路 径 的 总 数 将 翻 一 倍 。4 位 得 到 16 条 路 径 ，5 位 得 到 32 条 路 径 ， 
依 此 类 推 。 一 个 位 的 字 将 得 到 2" 条 不 同 的 路 径 或 位 模式 。 一 个 8 位 的 字 节 将 得 到 2 =256 
个 可 能 的 值 ， 一 个 16 位 的 字 将 得 到 2"°=65 536 个 不 同 的 值 。 为 了 用 二 进 制 数 表示 任何 一 个 
拥有 最 多 个 值 的 量 ， 应 找到 一 个 使 不 等 式 半 入 2" 成 立 的 最 小 位 数 m。 例 如 ， 要 表示 整数 
百分数 (BI n=0, =, 100), m7, AW 100 < 2'。 但 这 里 并 没有 指出 如 何 最 优 地 安排 





O 必须 对 这 人 句 话 进行 限定 。 如 果 计 算 机 能 直接 处 理 32 位 字数 据 ， 那 么 两 个 32 位 字 相 加 需要 将 32 对 二 进 制 位 
一 起 相 加 。 然 而 ， 由 于 加 法 还 应 考虑 来 自 右边 的 两 位 数字 的 进位 ， 那 么 必须 要 将 这 几 位 一 起 相 加 一 一 每 次 1 
位 。 程 序 员 实际 上 只 能 看 到 一 次 对 两 个 字 进 行 的 操作 ， 加 法 操作 的 细节 对 计算 机 用 户 隐 藏 了 起 来 。 大 多 数 其 
他 操作 也 是 如 此 。 不 过 一 些 计算 机 允许 用 户 对 一 个 字 的 某 个 特定 位 进行 操作 ， 例 如 ， 可 以 将 某 一 位 清 0 或 置 
为 1， 把 它 的 值 从 0 变 为 1 或 从 1 变 为 0, 或 者 测试 它 的 值 是 1 还 是 0， 并 在 程序 后 面 使 用 测试 结果 。 

i eee 
细 讨 论 。 
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这 严 位 对 应 的 2" 个 位 模式 。 从 图 2-1 中 可 以 看 出 这 些 位 被 放 在 了 相同 的 位 置 上 (2.2 节 将 对 
其 进行 详细 讨论 )。 我 们 很 快 将 会 看 到 数字 值 有 几 种 不 同 的 表示 方式 。 


pz 
ps 
es 
= 
Fe 
ms 
Pe, 


1 位 (2 个 值 ) 





2 位 (4 个 值 ) 
3 位 (8 个 值 ) 


© Cengage Learning 2014 


4 位 (16 个 值 ) 
图 2-1 二 进 制 树 


信息 表示 

一 个 n 位 的 字 可 以 表示 2" 个 不 同 的 位 模式 ， 图 2-1 描述 了 n=1，2，3 和 4 的 情况 。 那 
么 一 个 半 位 的 二 进 制 字 又 可 以 表示 什么 妮 ? 最 简单 的 答案 是 什么 也 表示 不 了 ， 因 为 一 个 由 二 
进 制 1 和 0 组 成 的 串 没有 任何 内 在 含义 。 怎 样 解释 一 个 特定 的 二 进 制 数 只 取决 于 程序 员 赋 予 
它 何 种 含义 。 在 介绍 二 进 制 运算 之 前 ,我 们 简要 介绍 一 下 一 般 的 二 进 制 码 而 不 考虑 数字 。 以 
下 是 一 些 能 够 用 字 表 示 的 对 象 。 

指令 字 长 为 32 位 或 更 长 的 计算 机 用 一 个 字 来 表示 CPU 能 够 完成 的 操作 (8 位 或 16 位 
计算 机 用 多 个 字 表示 一 条 指令 ) 2 。 指 令 的 二 进 制 编码 与 其 功能 之 间 的 关系 由 计算 机 设计 者 决 
定 。 例 如 ， 一 台 计 算 机 上 表示 “4 加 B” 的 二 进 制 序 列 可 能 与 男 一 台 计算 机 上 的 完全 不 同 。 

数量 一 个 字 或 多 个 字 都 可 以 用 来 表示 数量 。 数 可 被 表示 为 多 种 格式 (如 BCD 整数 、 
无 符号 二 进 制 整 数 、 有 符号 二 进 制 整 数 、 二 进 制 浮 点 数 、 整 数 复数 、 浮 点 复数 、 双 精度 整 
数 ， 等 等 )。 字 节 10001001 可 能 在 一 个 系统 中 表示 数值 -119， 在 另 一 个 系统 中 表示 137, 
而 在 第 三 个 系统 中 表示 89。 程序 员 必须 按照 数 的 类 型 对 其 进行 操作 ， 用 数字 8 去 乘 字 符 串 
“John” 的 二 进 制 表示 也 是 完全 可 以 的 9， 


日 一 些 16 位 计算 机 的 指令 长 度 在 16 位 到 80 位 之 间 ， 具体 长 度 取 决 于 指令 中 是 否 含 有 存储 地 址 。 
O 在 低级 语言 中 ， 你 可 以 对 任何 数据 进行 任何 操作 一 一 无 论 这 个 操作 是 否 合适 。 高 级 语言 则 通过 一 种 叫 作 “ 类 
型 ”的 机 制 确保 不 能 对 数据 进行 不 恰当 的 操作 ， 例 如 不 能 用 一 个 数 去 乘 一 个 字符 编码 
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X 2-1 ASCII 
0 1 2 3 4 5 6 7 
000 001 010 011 100 101 110 111 

0 0000 NULL DCL SP 0 @ P p 

1 0001 SOH DCI ! 1 A Q a q 

2 0010 STX DC2 2 B R b r 

3 0011 ETX DC3 # 3 g S c s 

4 0100 EOT DC4 $ 4 D T d t 

5 0101 ENQ NAK % 5 E U e u 

6 0110 ACK SYN & 6 F V f v 

7 0111 BEL ETB 7 G w g w 

8 1000 BS CAN ( 8 H x h x 

9 1001 HT EM ) 9 I Y i y 

A 1010 LF SUB * : J ž j z 

B 1011 VT ESC + ; K [ k { 

C 1100 FF FS < \ 1 | 

D 1101 CR GS za = M ] m } 

E 1110 so RS > N ^ n ~ 

F 1111 SI US / ? o o DEL 


字符 ”字符 是 一 个 叫 作 “ 字 母 表 ”的 集合 中 的 元 素 。 拉 丁 或 罗马 字母 表 中 的 字母 、 数 字 
字符 (A-Z, a-z, 0-9) 和 *、-、+、!、? 等 符号 都 被 分 配 了 二 进 制 值 ， 因 此 可 以 在 计算 
机 内 存储 和 处 理 。ISO 7 位 字符 码 或 ASCII 码 (美国 信息 交换 标准 代码 ) 是 在 计算 机 工业 中 
应 用 得 非常 广泛 的 一 种 编码 ， 它 用 7 位 表示 一 个 字符 ， 一 共 可 以 表示 27=128 个 不 同 的 字符 。 
其 中 有 96 个 字符 是 可 打印 字符 。 其 余 32 个 是 不 可 打印 的 ， 用 于 完成 加 车、 退 格 、 换 行 等 特 
殊 功 能 。 表 2-1 列 出 了 每 个 ASCII 码 的 值 及 其 所 代表 的 字符 。 因 为 计算 机 都 是 面向 字 节 的 ， 
它 通 常 可 以 通过 在 最 高 位 前 补 0 的 方法 将 7 位 ASCII 码 转换 为 8 位 一 一 我 们 也 会 使 用 这 个 
方法 6 

为 了 将 一 个 ASCII 字符 转 换 为 对 应 的 7 位 二 进 制 码 ， 应 将 该 字符 在 ASCII 码 表 的 行 号 
作为 ASCH 码 的 高 3 位 ， 列 号 作为 低 4 位 。 表 2-1 用 二 进 制 和 十 六 进 制 ( 稍 后 将 介绍 十 六 进 
制 数 ) 两 种 形式 对 各 行 和 列 编号 。 例 如 ， 字 母 “Z” 的 ASCII RRA 5A 2 1011010, 

+t Hl Be FFF OO, 1, 2, 3, 4, 5,6,7, 8 和 9 对 应 的 ASCII 码 分 别 是 30,6. 31,6 
3216+ 3316 3416+ 35165 36165 3716s 3816 和 3960 例如 ， 数 字 字 符 4 用 ASCII 码 00110100, 表示 ， 
而 数值 4 用 00000100, 表示 。 当 按 下 键盘 上 的 “4” 后 ， 计 算 机 得 到 的 输入 是 00110100 而 不 
是 00000100。 当 读 入 一 个 来 自 键盘 的 输入 或 将 一 个 输出 送 往 显示 器 时 ， 都 必须 在 数字 字符 
的 ASCI 码 和 数字 的 值 之 间 进 行 转换 。 在 高 级 语言 里 ， 这 个 转换 是 自动 完成 的 。 

# 2-1 左边 第 三 、 四 两 列表 示 0000000 ~ 0011111 之 间 的 ASCH 码 对 应 的 字符 ， 其 中 没 
有 字母 、 数 字 或 符号 。 这 两 列 字符 都 是 不 可 打印 的 ， 要 么 用 于 控制 打印 机 或 显示 设备 ， 要 么 
用 于 控制 数据 传输 链 路 。ACK (应 答 ) 和 SYN (同步 空闲 ) 等 数据 链 路 控制 字符 与 通信 系统 
有 关 ， 通 信 系 统 将 要 传送 的 字符 和 管理 信息 流 所 需 的 特殊 字符 混合 在 一 起 。 这 样 的 系统 已 不 
像 之 前 那样 受 欢 迎 ， 数 据 链 路 通过 其 他 机 制 进行 控制 。 
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ASCII 控制 字符 

不 久 前 ， 打 字 机 和 打印 机 还 都 是 机 电 设备 ， 一 些 ASCII 控制 字符 〈 回 车 、 换 行 、 换 
页 和 回 车 ) 用 来 控制 纸张 或 笔架 移动 ， 甚 至 还 有 一 个 报警 码 用 响 铃 引起 操作 者 的 注意 。 
一 些 特殊 字符 还 在 使 用 。 例 如 ， 换 码 字符 (ESC) 重新 定义 了 它 后 面 字符 的 含义 。 

一 些 今天 已 经 不 太 使 用 的 特殊 数据 通信 协议 还 会 用 到 STX (文本 开始 ) 等 数据 链 路 


7 位 的 ASCII 码 一 共 可 以 编码 128 个 字符 ,为 了 支持 A、6 和 上 等 重音 字符 ， 它 已 被 扩 
展 为 8 位 的 ISO 8859-1 拉丁 编码 。 但 因为 这 种 编码 不 适用 于 世界 上 的 许多 语言 ， 如 汉语 和 
日 语 ， 人 们 又 设计 了 Unicode 16 位 编码 ， 表 示 这 些 语言 中 的 文字 。Unicode 的 前 256 个 字符 
被 映射 到 ASCII 字符 集 上 ， 使 得 ASCII 码 与 Unicode 的 转换 非常 容易 。Java 语言 将 Unicode 
作为 其 字符 表示 的 标准 方法 。 

有 时 需要 对 某 种 字符 编码 进行 扩展 或 增强 (例如 ， 使 之 含有 另 一 种 语言 中 的 文字 符 
号 )。 增 加 每 个 字符 的 编码 位 数 或 者 使 用 转 义 序列 都 可 以 扩展 现 有 的 字符 编码 。 将 7 位 的 
ISO/ASCI 字符 集 扩展 为 8 位， 可 以 得 到 两 个 128 个 字符 的 字符 集 。 如 字符 最 高 位 为 0， 则 
其 余 7 位 代表 128 个 标准 ISO/ASCII 字符 中 的 一 个 。 反 之 ， 若 字符 最 高 位 为 1， 其余 7 位 将 
表示 128 个 新 字符 中 的 任意 一 个 (比如 非 拉 丁 语 字符 或 者 甚至 是 图 形 符 号 )。 

使 用 转 义 序列 是 另 一 种 扩展 字符 集 的 方法 ， 转 义 序列 用 一 个 特殊 字符 说 明 其 后 的 字符 
(或 字符 串 ) 的 含义 将 按照 与 标准 或 缺 省 字符 集中 不 同 的 方式 进行 解释 。 例 如 ，ISO/ASCII 的 
换 码 字 符 ESC 就 用 来 说 明 紧 跟 在 其 后 的 字符 有 新 的 含义 。 

图 像 、 声 音 和 视觉 ”数字 计算 机 处 理 大 量 表示 声音 、 静 态 图 像 和 视频 的 数据 。 也 许 有 人 
会 说 一 幅 照 片 的 大 小 相当 于 1000 个 词 ， 但 在 数字 世界 中 并 非 如 此 。 如 果 我 们 假设 平均 每 个 
词 中 含有 5 个 ASCII 字符 和 1 个 空格 ,那么 1000 个 词 共 有 6000 个 字符 或 大 约 6KB。 一 台 
全 画幅 数码 单反 相机 所 拍摄 的 raw (未 编码 ) 格式 照片 ， 每 张 的 大 小 约 为 30MB。 此 时 , 一 
张 照片 的 大 小 是 1000 个 词 的 5000 倍 。、 

组 成 照片 的 基本 单位 是 像素 (picture element)， 每 个 像素 的 大 小 可 以 是 8 位 ( 单 色 ) 或 
24 位 (三 基 )。 一 张 高 分 辩 率 照片 中 可 能 有 超过 4K x 3K MER. SHARE, 因 
为 视频 将 作为 一 串 静 态 图 像 依次 传输 ， 每 秒 发 送 60 次 (60 次 /s) 3。 实际 情况 并 不 像 数据 所 
反映 的 那样 糟糕 ， 因 为 无 论 是 静态 图 像 还 是 动态 图 像 ， 都 可 以 进行 压缩 以 减少 其 数据 量 一 一 
压缩 比 可 以 达到 10 倍 甚至 更 高 。 静 态 图 像 用 JPEG 算法 压缩 ， 动 态 图 像 则 用 MPEG 算法 压 
缩 。 在 介绍 处 理 多 媒体 应 用 的 专用 指令 集 时 我 们 还 会 回 到 这 一 话题 。 如 果 要 进行 实时 图 像 处 
理 ， 需 要 很 大 的 存储 容量 ， 很 高 的 传输 带宽 ， 以 及 很 强 的 处 理 能 力 。 我 们 有 理由 认为 高 性 能 
计算 机 技术 在 过 去 10 年 的 发 展 受到 了 多 媒体 应 用 需求 的 驱动 。 下 面 举 一 个 与 多 媒体 有 关 的 
问题 规模 的 例子 ， 请 考虑 一 架 载 客 量 为 800 人 的 空 客 A380 的 飞行 娱乐 系统 的 设计 ， 理 论 上 
所 有 800 名 乘客 都 可 以 使 用 该 系统 在 50 余部 影片 内 选择 一 部 来 观看 一 一 所 有 这 些 都 是 实时 
进行 的 。 

声音 的 存储 和 处 理 曾 是 计算 机 设计 者 面临 的 巨大 挑战 ， 但 与 图 像 相 比 这 已 不 再 是 一 个 严 


O 运动 图 像 的 传输 速率 比较 复杂 。 电 视图 像 或 帧 通常 是 隔行 扫描 的 ， 并 按照 奇数 行 和 偶数 行 这 两 个 连续 的 场 
(field) 传输 。 隔 行 扫描 减少 了 闪烁 的 影响 ,因为 60 幅 半 帧 的 图 像 看 起 来 比 30 幅 完整 的 图 像 更 好 一 些 。 电 影 
有 时 采用 24 帧 /s 的 速率 。 与 美国 所 用 的 30 帧 /s 或 每 秒 60 个 隔行 扫描 场 不 同 ， 欧 洲 的 电视 使 用 25 帧 /s 或 
每 秒 50 个 隔行 扫描 场 (因为 欧洲 的 输电 线 频 率 为 S50Hz， 而 美国 是 60Hz)。 
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峻 的 问题 ， 因 为 音频 处 理 所 需 的 计算 、 存 储 和 传输 带宽 已 经 完全 处 于 现代 计算 、 存 储 和 传输 
设备 的 能 力 范 围 内 。 奈 奎 斯 特 抽样 定律 (Nyquist ttheorem) 指出 ， 如 果 以 至 少 两 倍 于 音频 流 
最 高 频率 的 速率 对 初始 波形 进行 采样 ， 就 可 以 重新 构造 出 声音 信号 。16 位 采样 对 除了 最 高 
质量 音频 外 的 其 他 所 有 音频 都 足够 了 。 因 此 ， 以 32K 次 /s 的 速率 进行 声音 采样 共 需 2” x 2 
字 节 /s=2" 字 节 /s， 这 在 今天 是 毫 无 问题 的 。 使 用 高 级 心理 声学 模型 编码 方法 ( 见 第 5 章 ) 
和 MP3 等 算法 对 声音 进行 压缩 ， 可 以 将 其 所 需 带 宽 降 到 最 初 的 十 分 之 一 。 

多 媒体 信号 与 大 多 数 其 他 形式 的 数据 的 编码 之 间 有 一 个 重要 的 区 别 。 通 常数 据 必 须 进 行 
精确 编码 ， 它 的 存储 或 处 理 都 不 会 丢失 信息 。 没 人 和 硕 望 文本 文件 或 信用 卡 账单 中 出 现 随 机 
错误 。 这 种 编码 被 称 为 无 损 的 ， 它 表明 无 论 进行 多 少 次 编码 或 解码 ， 总 可 以 得 到 同样 的 结果 
(通过 将 频繁 出 现 的 词 或 一 组 字母 替换 为 短语 来 压缩 文本 文件 的 zip 编码 算法 是 一 个 很 好 的 无 
损 压缩 的 例子 )。 图 像 和 声音 编码 (MPEG, JPEG 和 MP3 ) 则 采用 有 损 编码 ， 意 味 着 编码 会 
造成 不 可 逆 的 质量 损失 。 这 种 有 损 编码 充分 利用 了 “如 果 不 能 轻易 地 觉察 到 ， 人 们 就 不 会 过 
于 关注 细节 的 损失 ”这 一 原理 。 


22 数字 


用 来 计数 的 数字 ( 即 1,2,3,4,… ) 被 称 作 自 然 数 ， 因 为 它们 并 不 依赖 于 数学 而 存在 一 一 
无 论 地 球 上 是 否 有 人 去 数 ， 猎 户 座 的 腰带 上 总 是 3 颗 星 。 我 们 用 十 进 制 或 十 进 制 系统 计数 ， 
因为 它 有 0 ~ 9 FE 10 个 符号 (对 应 于 人 手指 的 个 数 )。 

并 非 所 有 数字 都 是 自然 数 。 人 们 发 明了 负数 来 处 理 如 银行 存款 余额 等 情况 。 还 创造 出 
KAHE 123.456 和 13/14 那样 的 数 。 实 数 可 分 为 有 理 数 和 无 理 数 。 有 理 数 可 被 表示 为 分 数 
(如 7/12 )， 而 无 理 数 不 能 被 表示 为 一 个 整数 除 以 另 一 个 的 形式 ， 例 如 下 或 V2 。 

现代 数字 系统 中 ， 有 一 个 符号 表示 0， 这 是 在 1400 年 前 后 由 阿拉 伯 世 界 传人 欧洲 的 2 。 
该 系统 使 用 位 置 记 数 法 表示 十 进 制 数 ， 每 个 数位 的 值 或 权 取 决 于 它 在 数字 中 的 位 置 ， 例 如 数 
1261 中 6 的 值 就 是 数 126 6 的 10 倍 。 十 进 制 数 1261 等 于 1x 1000+2 x 100+6 x 10+1 x 1. 
在 位 置 记 数 法 中 ， 当 一 个 数 只 剩 一 位 时 所 乘 的 值 称 作 基 数 。 


2.2.1 位 置 记 数 法 
按照 位 置 记 数 法 ,一 个 n 位 的 整数 入 将 按照 下 面 的 形式 书写 : 


CEN RETE: VE T; 

这 里 a, (i=0,1,....n-1) 是 与 b FERN (此 处 为 基数 )。 例 如 ， 当 基数 为 10 时 ， 
我 们 可 以 将 N=278 写作 waiau， 这 里 a=2, a=7, a=8. 

用 小 数 点 例如， 十进制 小 数 点 基于 十 进 制 运算 ， 而 二 进 制 小 数 点 基于 二 进 制 运算 ) 将 
整数 部 分 和 小 数 部 分 分 开 ， 可 以 对 位 置 记 数 法 进行 扩展 ， 使 其 能 够 表示 实数 。 十 进 制 运算 中 
的 实数 按照 形 如 1234.567 的 方式 书写 。 一 个 小 数 点 前 有 位， 小 数 点 后 有 m 位 的 实数 被 表 
5 


一 个 用 基数 为 5 的 位 置 记 数 法 表示 的 数 的 值 被 定义 为 : 


日 正如 今天 计算 机 科学 家 为 了 Windows 和 Linux 而 争论 一 样 。 欧 洲 历史 上 也 曾经 有 过 一 段 罗马 数字 与 阿拉 伯 数 
字 共 存 的 时 期 。 那 时 的 人 们 如 果 想 要 记 账 ， 必 须 找 到 一 个 能 够 熟练 使 用 传统 的 罗马 数字 或 不 久 前 从 东方 传 来 
的 新 符号 的 会 计 。 斐 波 那 契 (Leonard de Pisa) 在 1202 年 向 欧洲 人 介绍 了 阿拉 伯 数 字 而 使 其 普及 起 来 ， 即 便 
如 此 ， 罗 马 数字 依然 在 此 后 被 沿用 了 几 个 世纪 。 直 到 1550 年 阿拉 伯 数 字 才 开始 广泛 使 用 
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N=a,_,b" "++ a,b'+ aba b+ ab +--+ a,b” 


= > ab 

采用 位 置 记 数 法 ， 一 个 数 的 数值 等 于 它 各 位 值 的 总 和 ， 而 每 一 位 的 值 则 是 该 位 的 数值 乘 
以 它 在 数 中 的 位 置 所 对 应 的 权 。 例 如 ， 十 进 制 数 1982 等 于 1x 10°+9 x108 x 10'+2 x 10°. 
对 于 任意 基数 bp，pb" 的 值 总 是 1。 

当 基 数 为 2 时 ， 二 进 制 数 10110.11 WY (AW 1 x 2440 x 2°41 x 2441 x 2440 x 2°41 x 21+ 
1x2°, 或 用 十 进 制 表示 为 16+4+2+0.5+0.25=22.75。 

为 了 区 分 十 进 制 数 、 二 进 制 数 和 十 六 进 制 数 ， 我 们 分 别 用 下 标 10、2 和 16 表示 基数 ( 例 
如 1234o, 1010011, 和 12A316 )。 不 过 ， 若 一 个 数 的 基数 是 显而易见 的 ， 则 可 以 将 下 标 省 略 掉 。 

计算 机 科学 家 对 4 种 数 制 感 兴趣 : 十进制、 二进制、 八进制 和 十 六 进 制 (十 六 进 制 通常 
被 缩写 为 hex)。 八 进 制 数 现在 使 用 不 多 ， 因 此 本 书 不 再 讨论 。 表 2-2 列 出 了 每 种 数 制 所 使 用 
的 数字 。 由 于 十 六 进 制 数 有 16 个 
数字 ， 字 母 A 一 F 分 别 表示 数值 表 2-2 四 种 数 制 用 到 的 数字 
0 Sa FAM, LACE BRR i = a= {0, 1,2, 3,4,5 ae 
1、2、12 和 15。 人 们 用 十 六 进 制 yey bo oo OO 
数 表示 位 数 很 多 的 二 进 制 数 。 例 八进制 b=8 a={0,1,2,3,4,5,6,7) 
如 ，8 位 二 进 制 数 210001001 等 于 Ayti b=16 a={0,1,2,3,4,5,6,7,8,9,A, B,C, D, E, F} 
十 六 进 制 数 89, 后 者 更 容易 记 ~ UU 


请 注意 ! f 

十 进 制 位 置 记 数 法 不 能 精确 地 表示 所 有 小 数 ， 例 如，1/3 是 0.33333333333339 二 
进 制 位 置 记 数 法 也 是 如 此 。 还 请 注意 ， 一 些 能 够 用 十 进 制 表 示 的 小 数 无 法 用 二 进 制 表 
示 ， 例 如 Olo 不 能 被 精确 地 转换 为 二 进 制 形 式 。 


数据 的 表示 方式 有 很 多 一 一 例如 曾 被 用 于 金融 计算 的 计算 器 和 计算 机 广泛 使 用 的 BCD 
E ( 即 二 -十 进 制 编码 )。BCD 码 使 用 4 位 二 进 制 码 0000 ~ 1001 表示 十 进 制 值 0 ~ 9。 
BCD 码 值 可 以 表示 十 进 制 数字 串 〈 例 如 1948 被 表示 为 0001 1001 0100 1000). BCD 码 的 效 
率 较 低 ， 因 为 二 进 制 数 1010 ~ 1111 并 没有 被 用 到 ， 而 且 与 二 进 制 运算 相 比 ， 十 进 制 运算 
要 烦琐 得 多 。 由 于 BCD 码 已 不 再 是 计算 机 设计 时 考虑 的 主要 因素 ， 所 以 本 书 将 这 部 分 内 容 
略 去 2 。 


2.3 ”二进制 运算 

本 节 将 介绍 基本 的 二 进 制 整数 算术 运算 (加 法 、 减 法 、 乘 法 和 除法 )。 二 进 制 算术 运算 
的 规则 与 十 进 制 基 本 相同 ; 唯一 的 区 别 在 于 ,十进制 算术 运算 以 10 为 基数 ， 每 位 有 10 个 
数字 ， 而 二 进 制 运算 以 2 为 基数 ， 每 位 只 有 2 个 数字 。 下 面 列 出 了 二 进 制 加 法 、 减 法 和 乘法 
运算 的 规则 ， 比 起 对 应 的 十 进 制 运算 简单 了 许多 。 三 个 一 位 二 进 制 数 加 法 的 规则 也 列 在 了 下 
面 ， 这 有 助 于 读者 理解 进位 是 如 何 处 理 的 。 





O 邻 人 好奇 的 是 ， 十 进 制 运算 又 东山 再 起 了 。IBM Power6 处 理 器 使 用 高 速 十 进 制 运算 逻辑 完成 金融 数据 库 中 
的 事务 处 理 


加 法 减法 乘法 加 法 (三 位 ) 
0+0=0 0-0=0 0x 0=0 0+0+0=0 
O+1=1 0 一 1=1 ( 借 位 为 1 ) 0x 1=0 0+0+1=1 
1+0=1 t=0=1 1x 0=0 0+1+0=1 
1+1=0 (进位 为 1) 1-1=0 1x1=1] 0+14+1=0 (进位 为 ] ) 
1+0+0=1 


1+0+1=0 (进位 为 1) 
1+1+0=0 (进位 为 1) 
1 二 1+1=]( 进 位 为 1 ) 
上 面 的 规则 描述 了 两 个 一 位 二 进 制 数 进行 加 法 、 减 法 和 乘法 运算 时 的 情形 。 两 个 位 相 加 
可 能 产生 进位 或 借 位 ， 就 像 十 进 制 算术 运算 中 那样 (例如 4+8=2， 进 位 为 1 )。 
真实 计算 机 处 理 8 位 、16 位 、32 位 或 64 位 的 数字 ， 一 个 字 中 的 所 有 位 都 必须 参与 算术 
运算 。 当 两 个 二 进 制 字 相 加 时 ， 一 个 加 数 中 所 有 的 位 都 将 与 男 一 个 加 数 中 对 应 的 位 相 加 ， 从 
最 低位 开始 ， 每 次 处 理 一 位 。 加 法 产生 的 进位 应 参与 其 左边 一 列 中 两 位 的 加 法 。 请 考虑 下 面 
4 个 8 位 二 进 制 数 相 加 的 例子 。 请 注意 ， 图 中 加 阴影 的 表示 进位 〈 值 为 1 )。 








例 1 例 2 ” 例 3 例 4 
00101010 10011111 00110011 01110011 
+01001101 +00000001 +11001100 +01110011 

1 11111 11 11 
01110111 10100000 11111111 11100110 


当 两 个 二 进 制 数 相 减 时 ， 一 定 要 记得 0-1 的 差 为 1， 同 时 会 从 其 左 侧 借 一 位 。 请 考虑 下 
面 二 进 制 减法 的 例子 (加 阴影 的 表示 借 位 )。 请 注意 例 5 是 用 小 数 减 去 大 数 ， 就 像 传统 的 算 
术 运 算 一 样 。 但 我 们 很 快 就 会 看 到 ， 计 算 机 并 没有 按照 这 种 方式 工作 。 





例 1 例 2 例 3 例 4 例 5 
01101001 10011111 10111011 10110000 01100011 
—01001001 —01000001 —10000100 01100011 —10110000 

1 1 | | 
00100000 01011110 00110111 01001101 -01001101 


十 进 制 乘法 则 要 难 一 些 一 一 我 们 必须 从 1 x 1=1 开始 学 习 九 九 表 ， 直 到 9 x 9=81。 二 进 
制 乘法 仅 需 要 一 个 简单 乘法 表 ， 记 录 了 两 个 位 相 乘 得 到 一 个 位 的 积 。 

0 x 0=0 

0 x 1=0 

1 x 0=0 

1 x 1=1 

下 面 的 例子 描述 了 01101001, (FER) = 01001001, ERZO HRR. MA n 位 字 
相 乘 将 产生 一 个 22 位 的 积 。 乘 法 运算 从 被 乘 数 的 最 低位 开始 ， 测 试 它 的 值 是 0 还 是 1。 如 
果 该 位 为 0， 则 在 算式 中 写 下 nt 0; 如果 该 位 为 1， 则 写 下 乘 数 (这 个 值 被 称 作 部 分 积 )。 
接 下 来 继续 测试 被 乘 数 左边 的 下 一 位 并 执行 同样 的 操作 一 一 这 个 例子 是 从 上 一 个 部 分 积 的 下 
方 、 左 边 一 位 开始 写 下 n 个 0 或 4 位 的 乘 数 ( 即 部 分 积 被 左 移 了 1 位 )。 这 个 过 程 将 一 直 继 
续 ， 直 到 被 乘 数 中 的 每 一 位 都 按 顺 序 被 检测 过 。 最 后 ， 这 n 个 部 分 积 被 加 到 一 起 ， 生 成 乘 数 
与 被 乘 数 的 积 。 


这 个 算法 能 够 自动 完成 ， 部 分 积 将 被 直接 加 到 一 个 累计 的 总 和 上 。 
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被 乘 数 FEL ERR 部 分 积 
01001001 0110100 1 0 ] l 0 1 0 0 ji 
01001001 0110100 2 0 0 0 0 0 0 0 0 
01001001 01101001 3 0 0 0 0 0 0 0 0 
01001001 0110100 4 o 1 1 0 1 0 0 421 

01001001 01101001 5 0 0 0 0 0 0 0 0 
01001001 0110100 6 oo RD vo oO Oo © 

01001001 0110100 7 0 1 1 0 ] 0 0 ] 
01001001 01101001 8 0 0 0 0 0 0 0 0 

结果 | 


请 注意 ， 计 算 机 并 没有 按照 这 种 先生 成 多 个 部 分 积 再 将 它们 加 在 一 起 的 方法 。 如 果 








计算 机 不 会 像 我 们 这 样 完成 乘法 运算 。 本 章 将 在 后 面 介绍 计算 机 实现 乘法 的 一 些 方法 。 


表示 范围 、 精 度 、 准 确 性 和 误差 

在 继续 介绍 负数 的 表示 方法 之 前 ， 我 们 需要 介绍 4 个 计算 机 算术 运算 的 重要 概念 。 
当 用 计算 机 进行 文本 处 理 时 ， 我 们 都 希望 计算 机 能 够 准确 处 理 。 如 果 计 算 机 突然 无 法 正 
确 地 输出 单词 ， 我 们 一 定 会 非常 惊讶 。 然 而 ， 对 于 数值 数据 来 说 却 无 需 如 此 。 由 于 以 下 
两 个 原因 ， 计 算 时 有 可 能 引入 数值 误差 。 引 起 误差 的 第 一 个 原因 是 数 自身 的 属性 ， 第 二 
个 原因 是 计算 机 无 法 精确 地 完成 算术 运算 。 现 在 我 们 定义 3 个 计算 机 算术 的 重要 术语 ; 
表示 范围 、 精 度 和 准确 度 ， 它 们 都 对 硬件 和 软件 体系 结构 有 非常 重要 的 影响 。 

表示 范围 ( Range) 个 数 所 能 表示 的 最 大 值 和 最 小 值 的 差 就 是 它 的 表示 范围 ， 
例如 一 个 于 位 二 进 制 自然 数 的 表示 范围 为 0 一 2" 一 1。 一 个 于 位 二 进 制 有 符号 补 码 数 可 以 
表示 -2 一 2 -1 之 间 的 值 。 对 于 用 科学 记 数 法 表示 的 浮 点 实数 (e 9.6124 x 10°), 
它 的 表示 范围 是 指 所 能 表示 的 最 大 值 和 最 小 值 (如 0.2345x1023 或 0.12379x1014)。 表 
示范 围 在 科学 计算 应 用 中 尤其 重要 ， 特 别 是 当 需 要 表示 银河 系 的 大 小 或 银行 家 的 红利 那 
样 的 天 文 数字 时 ， 或 表示 电子 的 质量 那样 微观 的 很 小 的 值 时 。 

精度 (Precision) 一 一 数 的 精度 是 数据 表示 得 有 多 好 的 衡量 标准 之 一 。 例如， 就 
不 能 用 二 进 制 或 十 进 制 实数 精确 表示 一 一 无 论 用 多 少 位 都 不 行 。 如 果 用 5 位 十 进 制 数 表 
示 mT， 则 其 精度 为 IO 分 之 一 。 如 果 用 20 位 ， 则 其 精度 为 10” 分 之 一 。 

准确 度 (Accuracy) 一 一 数 的 表示 值 与 其 的 真实 值 之 间 的 差 衡 量 了 数据 表示 的 准确 
度 。 例如， 我 们 测量 出 菜 种 液体 的 温度 为 51.32% ， 而 它 的 实际 温度 为 $1.34%C ， 则 准确 
度 为 0.02*。 有 时 人 们 会 混淆 准确 度 和 精度 。 它 们 并 不 一 样 。 例 如 ， 液 体温 度 的 测量 结果 
可 能 是 51.320001， 有 8 个 有 效 数 字 ， 但 它 的 实际 温度 为 51.34， 只 有 4 个 有 效 数字 。 

误差 (Error) 一 一 也 许 有 人 会 说 误差 只 是 准确 度 的 一 个 衡量 标准 ( 即 误差 = 真实 值 一 
测量 值 )。 这 是 对 的 。 不 过 ， 对 于 计算 机 设计 者 、 计 算 机 程序 员 和 计算 机 用 户 而 言 重 要 
的 是 误差 如 何 产 生 、 如 何 控制 误差 .以 及 如 何 将 误差 的 影响 降 到 最 小 。 

二 进 制 小 数 带 来 的 二 进 制 算术 运算 中 的 误差 和 准确 度 问题 就 是 一 个 很 好 的 例子 。 如 
果 有 足够 的 位 数 用 于 数据 表示 ( 即 一 个 足够 大 的 表示 范围 )， 那 么 任何 一 个 十 进 制 整数 都 











可 以 被 表示 为 二 进 制 形式 。 二 进 制 小 数 的 位 置 记 数 法 表示 为 0.10.50, 0.001,=0.125 10, 
0.00012=0.0625io，…。 三 进 制 数 的 一 个 特点 是 ， 即 便 使 用 了 很 多 位 ， 也 不 能 将 所 有 的 十 
进 制 小 数 准确 地 表示 为 二 进 制 形式 。 例 如 0.1u=0.000110011001100110011.…2。 无 论 用 多 
少 位 都 不 能 准确 地 将 0.1io 表示 为 二 进 制 形式 。 在 32 位 的 机 器 上 ， 数 据 表示 的 精度 为 2” 
e 5 

忽略 计算 机 无 法 精确 表示 十 进 制 小 数 可 能 会 带 来 严重 后 果 。 爱 国 者 导弹 故障 也 许 是 有 
记录 的 后 果 最 为 严重 的 十 进 制 / 二进制 算术 运算 故障 。 爱 国 者 导弹 是 一 种 反 导 装备 ， 能 够 
击毁 敌 方 发 射出 的 导弹 。 它 会 在 距离 目标 5 一 10m 处 被 引爆 ， 并 释放 出 1000 Mu. 

爱国 者 导弹 的 地 面 跟踪 雷达 会 检测 到 并 跟踪 飞 来 的 目标 。 爱 国 者 的 控制 软件 执行 24 
位 精度 的 算术 运算 ， 系统 时 钟 每 0.1s 更 新 一 次 。 跟 踪 精 度 与 累积 时 间 的 绝对 误差 有 关 ， 
即 系统 软件 使 用 24 位 精度 的 系统 时 钟 ， 它 所 估算 的 目标 位 置 的 误差 将 逐渐 增加 。 这 本 
不 应 成 为 一 个 问题 ， 因 为 爱国 者 导弹 系统 仅 会 在 一 个 相对 较 短 的 时 间 段 内 工作 。 

但 在 1991 年 第 一 次 伊拉克 战争 期 间 ， 位 于 达 兰 的 一 个 爱国 者 反 导 系统 却 已 工作 了 
超过 100 小 时 。 这 段 时 间 内 积累 的 时 钟 误差 已 经 达到 0.3433s， 这 对 应 于 目标 位 置 (M 
于 3 月 5 日 发 射 的 飞毛腿 导弹 ) 的 估计 误差 达到 667m。 在 这 个 事件 中 ， 爱 国 者 导弹 并 未 
成 功 拦截 飞 来 的 飞毛腿 导弹 ， 反 而 造成 28 名 美军 士兵 丧生 。 当 然 ， 没 有 误差 也 不 意味 
着 一 定 会 拦截 成 功 。 但 误差 却 会 导致 系统 拦截 失败 。 


I 


尽管 为 了 说 明 有 限 的 精度 对 二 进 制 算术 运算 的 影响 ， 我 们 用 一 个 生动 的 例子 强调 了 
失败 所 带 来 的 后 果 ， 但 在 二 进 制 算 术 运算 中 ， 表 示范 围 、 精 度 和 准确 度 造成 的 影响 都 应 
被 考虑 在 内 。 





2.4 有 符号 整数 


尽管 负数 可 以 用 很 多 种 不 同 的 方式 表示 ， 但 计算 机 设计 者 选择 了 3 种 方法 : 符号 及 值 表 
示 法 ,二进制 补 码 表示 法 ， 移 码 表示 法 。 每 种 方法 都 有 其 各 自 的 优点 和 缺点 。 


2.4.1 符号 及 值 表示 法 
一 个 nn 位 字 可 以 表示 从 0 ~ 2”" 共 2" 个 可 能 的 值 。 例如， 用 一 个 8 位 的 字 可 以 表示 0， 
1, =, 254, 255。 表 示人 负数 的 一 种 方法 是 用 它 的 最 高 位 表示 符号 。 通 常 符 号 位 为 0 表示 正 数 ， 
符号 位 为 1 表示 负数 。 
有 符号 数 的 值 可 被 表示 为 (1) ”xM， 这 里 5 为 数 的 符号 位 的 值 ，M 为 其 数值 部 分 。 
#5 S=0, WW (-1) =+1， 该 数 为 正 数 。 如 果 5S=1， 则 (一 1 ) '=-1， 该 数 为 负数 。 例 如 ， 下 面 
两 个 8 位 有 符号 二 进 制 数 00001101 和 10001101 的 值 为 
0 0001101=+13 以 及 1 0001101=—13 
< 一 < 如一 
数值 部 分 数值 部 分 
符号 位 符号 位 
n 位 有 符号 的 表示 范围 为 - (2” -1) B+ (27-1), 一 个 8 位 有 符号 数 可 以 表示 -127 
(11111111 ) 至 +127 (01111111 ) 之 间 的 整数 。 有 人 反对 该 系统 的 一 个 原因 是 它 有 两 个 值 都 
表示 0: 
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00000000 = +0 以 及 10000000 = -0 

符号 及 值 表 示 法 并 没有 被 用 于 整数 算术 运算 中 ， 因 为 它 的 加 、 减 法 运算 分 别 用 加 法 器 和 
减法 器 实现 。 很 快 我 们 就 会 看 到 另外 一 些 只 需 使 用 加 法 器 的 负数 表示 方法 。 符 号 及 值 表示 法 
用 于 浮 点 算术 运算 中 。 


2.4.2 二进制 补 码 运算 


微 处 理 器 用 二 进 制 补 码 系统 表示 有 符号 整数 ， 因 为 它 可 以 将 减法 运算 转换 为 对 减 数 的 补 
数 的 加 法 运算 。 用 7 加 上 5 的 补 数 就 可 以 完成 运算 7 减 去 $。 


补 码 算术 运算 

本 节 涉 及 几 个 相关 的 概念 ， 读 者 也 许 不 容易 理解 我 们 正在 讨论 的 内 容 。 这 里 给 出 一 
个 简要 的 介绍 。 一 个 数 与 它 的 补 数 之 和 是 一 个 常数 ; 例如 一 个 一 位 十 进 制 数 与 它 的 补 数 
之 和 总 是 9; 2 的 补 数 是 7， 因 为 2+7=9。 在 n 位 二 进 制 算术 中 ， 数 忆 的 补 数 为 O 且 P+ 
Q=2". 

在 二 进 制 算术 中 ， 求 一 个 数 补 数 的 方法 是 将 其 各 位 取 反 并 加 1。 例 如 ，01100101 的 
补 数 为 10011010 + 1 = 10011011。 人 们 之 所 以 对 补 码 算术 感 兴趣 ， 就 是 因为 减 一 个 数 等 
于 加 上 这 个 数 的 补 数 。 因 此 ， 一 个 二 进 制 数 减 01100101 等 价 于 它 加 上 和 补 数 10011011。 


一 个 nn 位 二 进 制 数 入 的 二 进 制 补 码 定义 为 2"~-N。 如 果 N=5 = 00000101 (8 位 二 进 制 
数 )， 则 X 的 补 码 为 2* — 00000101 = 100000000—00000101=11111011. YERE, 11111011 也 可 
以 代表 -00000101 (—5) 或 +123， 这 取决 于 我 们 是 将 二 进 制 数 11111011 看 作 补 码 还 是 非 符 
号 整数 。 

下 面 的 例子 说 明了 8 位 二 进 制 数 的 补 码 运 算 过 程 。 首 先 我 们 将 4 个 数 +5， -5, +7 和 -7 


转换 为 补 码 。 
+5=00000101 -5=11111011 +7=00000111 ~7=11111001 
现在 将 7 与 5 的 互补 数 相 加 ， 
00000111 7 : 
+ 11111011 -5 
100000010 2 


结果 为 9 位 二 进 制 数 100000010。 如 果 忽 略 最 左边 一 位 (PY “BEE” ), SEAR 00000010,= 
+2， 这 正 是 我 们 所 希望 看 到 的 结果 。 下 面 来 看 看 -7 加 5， 
00000101 5 
+ 11111001 -7 
11111110 -2 
结果 为 11111110 (进位 位 为 0)。 我 们 预期 的 结果 为 -2 ; Bl 2*-2=10000000-00000010 = 
11111110。 我 们 再 一 次 得 到 了 所 需要 的 结果 。 
二 进 制 补 码 算术 可 不 是 魔术 。 请 考虑 位 二 进 制 算术 运算 Z=N-Y, 我 们 用 站 加 上 了 的 
补 数 来 完成 这 一 运算 。 了 的 补 码 为 2- 了 ， 则 有 Z=X+(2"-Y)=2"+(X+Y).. 
换 句 话说 ,我 们 得 到 了 所 需要 的 结果 ，X- 了 ， 以 及 位 于 最 左边 的 一 个 并 不 需要 的 进位 
( 即 2")， 而 这 个 进位 被 丢 充 了。 
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对 一 个 数 两 次 求 补 将 得 到 这 个 数 本 身 ; 例如 ，-5=2:-00000101=11111011。 再 次 求 补 ， 
我 们 将 得 到 : 一 (—5 ) =10000000-11111011=00000101=5。 即 -x=2"-x H — (-x) =2”- (2 一 
x) =x, 请 考虑 下 面 的 加 法 实例 ， 它 涵盖 了 被 加 数 与 加 数 分 别 为 正和 为 负 时 全 部 四 种 可 能 的 
情形 。 

4 X=9=00001001, Y=6=00000110, J] 

— X= 10000000 — 00001001 = 11110111 

— Y= 10000000 — 00000110 = 11111010 


1) +X +9 00001001 2)+X +9 00001001 

+Y +6 + 00000110 =Y =6 + 11111010 
00001111 = 15 100000011 = +3 

3)—x -9 11110111 4)-X -9 11110111 

+Y +6 + 00000110 = -6 + 11111001 


11111101 = -3 ll10001= -15 

将 结果 视 为 补 码 时 ， 所 有 4 个 例子 都 得 到 了 我 们 所 期 望 看 到 的 结果 。 例 3 将 6 与 9 的 补 
数 相 加 完成 运算 -9+6， 得 到 -3. —3 的 补 码 为 10000000 一 00000011 = 11111101. 

例 4 计算 -X + -7Y， 得 到 -15， 但 这 是 一 个 模 2" 加 法 的 结果 。-15 的 补 码 为 10000000 一 
00001111 = 11110001。 当 两 个 数 都 是 负数 时 ， 有 (2"-X) + (2"-Y) =2"+ (2"-X-Y). KF 
表达 式 的 第 一 部 分 是 模 2" 加 法 时 宛 余 的 2"， 第 二 部 分 为 -X-7 了 的 互补 数 。 对 于 正 数 和 负数 
加 法 的 所 有 情形 ， 补 码 都 可 以 得 到 正确 的 结果 。 

1. 求 补 运算 

如 果 不 是 因为 求 补 运算 非常 简单 ， 补 码 不 会 有 这 样 的 吸引 力 。 请 考虑 一 个 n 位 二 进 制 补 
码 数 W， 它 被 定义 为 2-N。 将 表达 式 2"-N 变 为 下 面 的 形式 : 

2"-1-N+1=111...1-N+1 

<=. 

n 位 
例如 ，8 位 (n=8 ) 时 有 

2 一 NMN=100000000-N=100000000-1-N+1 (调整 后 ) 
=11111111-N=1l 

表达 式 11111111-X 的 值 很 容易 计算 。 对 于 NN 的 第 i 位 ,，n,, Hn, =0, W1-0-1, WHR, # 
n=l, W| 1-1=0。 显 然 1-m= 元 。 可 见 计算 N 的 补 码 非常 容易 ， 所 要 做 的 就 是 将 V 的 每 一 位 
取 反 并 将 结果 加 1。 例 如 ， 对 于 下 面 的 5 位 二 进 制 数 有 

-7=00111+1=11000+1=11001 
这 种 求 补 码 的 方法 的 优点 在 于 它 很 适合 用 硬件 实现 。 

2. 补 码 的 特点 

1) 补 码 是 一 个 真正 的 互补 系统 ， 因 为 +X+( 一 X)= 0。 

2) 补 码 0 被 表示 为 00…0， 是 唯一 的 。 

3) 补 码 的 最 高 位 为 符号 位 。 如 果 符号 位 为 0， 则 该 数 为 正 ; 符号 位 为 1， 则 该 数 为 负 。 

4)n 位 二 进 制 补 码 数 的 表示 范围 为 -2” ~ 2"-1-1。 对 于 n=8， 补 码 表示 范围 
为 -128 ~ 127。 共 有 2°=256 个 不 同 的 数 (128 个 负数 ，1 个 0，127 个 正 数 )。 

5) 补 码 加 法 和 减法 使 用 同样 的 硬件 完成 ， 因 为 补 码 减 法 由 被 减 数 加 上 减 数 的 补 数 实现 。 
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3. 运算 溢出 

nn 位 二 进 制 补 码 数 的 表示 范围 为 -2”' 一 2”"'-1。 如 果 破 坏 了 这 个 规则 ， 即 运算 结果 位 
于 这 个 范围 之 外 ,会 发 生 什么 ? 5 位 有 符号 二 进 制 补 码 数 的 表示 范围 为 -16 ~ +15。 请 考虑 
下 面 的 例子 ， 


情形 1 情形 2 
5=00101 12 = 01100 
+7 = 00111 +13 = 01101 
12 01100 = 12,, 25 11001 =—7,, 


(表示 为 二 进 制 补 码 数 ) 

情形 1 中 ， 我 们 得 到 了 期 望 的 结果 +12,。， 但 情形 2 中 ,我 们 得 到 的 结果 为 负数 ， 因 为 
它 的 符号 位 为 1。 如 果 将 结果 视 作 无 符号 数 ， 它 将 是 +25， 这 个 值 显然 是 正确 的 。 然 而 ， 既 
然 我 们 已 经 选择 补 码 作为 负数 的 表示 方法 ， 所 有 运算 结果 都 必须 有 一 个 合理 的 解释 。 

同样 ， 如 果 两 个 负数 相 加 且 结 果 小 于 -16， 也 会 超出 5 位 二 进 制 补 码 的 表示 范围 。 例 如 ， 
将 —9=10111, 与 -12=10100, 相 加 ， 得 到 

-9 = +10111 
—12 =+10100 
-21 = 101011 结果 为 正 数 01011,=+ 11, 

这 两 个 例子 都 说 明了 什么 是 运算 溢出 ， 它 发 生 在 补 码 加 法 当 两 个 正 数 的 和 为 负数 ， 或 
两 个 负数 的 和 为 正 数 的 时 候 。 如 果 操 作 数 4 和 中 的 符号 位 相同 但 结果 的 符号 位 与 它们 不 同 ， 
则 发 生 了 溢出 。 假 设 4 的 符号 位 为 anio 的 符号 位 为 b, |，4 与 8 之 和 的 符号 位 为 sis M 
可 以 用 下 面 的 逻辑 表 达 式 判断 是 否 汶 出 (下 节 将 介绍 逻辑 表达 式 )。 


y = 4,4 Dy Sa-i + an b 1 Sa-i 


TERP, HK RIEA Ak BY E i A A h ea RHE ARE Dt, B 
三 Gi AF Cono Vit HE AMS Iz FSA, AR SER, E ae h a R 
最 高 两 位 之 和 决定 。 


2.5 乘除 法 简介 


除了 加 减法 ， 计 算 机 还 必须 实现 乘法 和 除法 。 这 两 个 操作 比 加 减法 复杂 得 多 ， 所 需 的 完 
成 时 间 也 长 得 多 (或 需要 更 复杂 的 硬件 )。 这 里 仅 介绍 乘法 和 除法 的 基本 知识 。 


2.5.1 移 位 运算 

在 讨论 如 何 进 行 二 进 制 乘法 之 前 ， 我 们 首先 介绍 二 进 制 补 码 数 的 算术 移 位 运算 ?。 本 节 
将 其 简称 为 “ 移 位 ”。 进 行 移 位 运算 时 ， 一 个 数 的 所 有 位 都 会 向 左 或 向 右 移动 一 位 (例如 ， 
将 二 进 制 数 00101100 左 移 一 位 ， 它 将 变 为 01011000， 右 移 一 位 将 变 为 00010110 )。 有 些 计 
算 机 每 次 可 以 移动 多 位 。 

二 进 制 补 码 正 数 左 移 一 位 等 价 于 将 该 数 乘 2。 十 进 制 数 39 的 二 进 制 表 示 为 00100111， 
左 移 一 位 得 到 01001110， 对 应 于 十 进 制 数 78。 图 2-2a 描述 了 算术 左 移 的 过 程 。 空 出 的 最 
低位 补 0,， 移出 的 最 高 位 保存 在 计算 机 的 进位 标志 中 ， 进 位 标志 在 图 2-2 中 用 C 表示 。 进 位 





O 后 面 将 会 看 到 ,计算 机 实现 了 不 同类 型 的 移 位 操作 : 逻辑 移 位 、 算 术 移 位 、 循 环 移 位 以 及 扩展 移 位 。 
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标志 是 计算 机 中 的 一 个 位 存储 单元 ， 保 存 了 进位 位 的 状态 。 


a) 算 术 左 移 
最 低位 补 0， 最 高 位 被 复制 到 进位 标志 中 。 
例如 : 11000101 左 移 一 位 后 得 到 10001010, 


b) 算 术 右 移 

最 高 位 补 符号 位 。 所 有 位 右 移 一 位 。 最 低 
位 复制 到 进位 标志 中 。 

例如 : 00100101 右 移 一 位 得 00010010， 
11100101 右 移 一 位 得 11110010, 


图 2-2 算术 移 位 运算 


11100011 左 移 一 位 得 到 11000110。 有 符号 二 进 制 补 码 数 11100011 表示 十 进 制 数 -29。 
左 移 一 位 之 后 的 结果 是 11000110， 表 示 十 进 制 数 -58。 

二 进 制 数 右 移 一 位 相当 于 它 除 以 2。 以 00001100 ( 即 12,,) 为 例 ， 右 移 一 位 得 到 
00000110 ( 即 6o)。 注 意 ，00001101 (E 13,,) 右 移 一 -位 也 会 得 到 00000110， 也 是 6。 这 
是 因为 移出 的 最 低位 被 丢弃 了 。 

负数 右 移 需要 特别 注意 。 简 单 地 将 二 进 制 补 码 负 数 11100010 右 移 一 位 ， 结 果 为 
01110001， 这 显然 是 不 正确 的 。 为 了 在 移 位 时 保持 二 进 制 补 码 数 的 符号 不 变 ， 右 移 时 应 该 像 
图 2-2(b) 那样 复制 符号 位 。 请 考虑 11100010 (BN -30 )。 右 移 一 位 同时 保持 符号 位 不 变 将 得 
到 11110001， 等 价 于 -15。 

为 什么 通过 右 移 一 位 实现 二 进 制 补 码 数 除 以 2 时 要 在 最 高 位 补 符号 位 ?二进制 正 数 定义 为 
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Oxxxx,...xx, KB xy 1 或 0。 将 该 数 除 以 2， 会 得 到 OOpppp,..., pp。 这 个 数 的 补 数 为 1yyyy,.…， 
yH (这 里 每 个 y 是 对 应 的 x 的 补 )。 现 在 把 00pppp,…, pp 转换 为 负数 ， 会 得 到 11qgqg,…， 


49+1。 正 如 我 们 所 看 到 的 那样 ， 无 论 是 正 数 还 是 负数 ， 右 移 时 符号 位 都 应 保持 不 变 
2.5.2 无 符号 二 进 制 乘法 

AEGA TEA EEE RE, 这 里 之 所 以 强调 人 们 是 因为 计算 机 不 会 像 人 
那样 进行 部 分 积 加 到 一 起 。 计 算 机 从 乘 数 的 最 低位 开始 ， 每 次 检查 
一 位 ， 判 断 它 是 否 为 0。 如 果 乘 数 的 当前 位 为 1 则 写 下 被 乘 数 ， 若 该 位 为 0 则 写 下 an 个 0。 
接 下 来 检查 乘 数 的 下 一 位 ， 但 这 时 应 从 上 一 个 数 的 左边 一 位 开始 写 下 被 乘 数 (或 0 )。 被 写 
下 的 这 一 组 数 叫 作 部 分 积 。 在 得 到 所 有 的 部 分 积 之 后 ， 将 它们 加 到 一 起 ， 得 到 乘法 的 结果 。 








10 x 13 乘 数 = 1101, 
被 乘 数 = 1010, 
1010 
1101 


1010 第 1 步 乘 数 第 1 位 =1， 写 下 被 乘 数 

0000 第 2 步 乘 数 第 2 位 =0, 写 下 0 并 左 移 
1010 第 3 步 ” 乘 数 第 3 位 =1, 写 下 被 乘 数 并 左 移 
1010 第 4 步 乘 数 第 4 位 =1, 写 下 被 乘 数 并 左 移 
10000010 第 5 步 将 4 个 部 分 积 加 到 一 起 


乘法 的 结果 10000010, = 130, 是 个 8 位 二 进 制 数 。 两 个 位 二 进 制 数 相 乘 会 得 到 一 个 
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2n 位 的 积 。 正 如 前 面 提 到 的 那样 ， 数 字 计 算 机 并 没有 实现 上 面 的 算法 ， 因 为 这 种 算法 要 求 
计算 机 存储 n 个 部 分 积 ， 然 后 将 它们 同时 相 加 。 一 种 更 好 的 技术 是 每 得 到 一 个 部 分 积 时 就 做 
一 次 加 法 。 图 2-3 给 出 了 一 个 计算 两 个 位 无 符号 二 进 制 数 相 乘 的 算法 。 请 考虑 用 图 2-3 描 
述 的 算法 计算 1101 x 1010 的 例子 。 表 2-3 给 出 了 其 计算 过 程 。 


.将 计数 器 的 值 置 为 no 

. 将 2n 位 的 部 分 积 寄存 器 清 零 。 

.检查 乘 数 的 最 右 位 ( 即 最 低位 )。 表 2-3 中 用 下 划 线 
标 出 了 这 一 位 ， 将 被 乘 数 与 部 分 积 的 最 低 n 位相 加 。 


.将 部 分 积 右 移 一 位 。 

， 将 乘 数 右 移 一 位 ( 乘 数 的 最 右 位 当然 会 被 丢弃 ) 
将 计数 器 的 值 减 1， 重复 步骤 c 直到 个 周期 后 计 
数 器 的 值 变 为 0。 部 分 积 寄存 器 的 内 容 就 是 乘积 。 


图 2-3 ”一 种 乘法 算法 
表 2-3 用 图 2-3 中 的 方法 计算 无 符号 数 乘法 
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FEA = 1101, 被 乘 数 = 1010, 

步骤 计数 值 乘 数 部 分 积 

a 和 b 4 1101 00000000 
1 c 4 1101 10100000 
1 d file 4 0110 01010000 
1 f 3 0110 01010000 
2 c 3 0110 01010000 
2 d file 3 0011 00101000 
2 f 2 0011 00101000 
3 c 2 0011 11001000 
3 dfile 2 0001 01100100 
3 f 1 0001 01100100 
4 c 1 0001 10000010 
4 d file 1 0000 10000010 

2.5.3 快速 乘法 


这 种 通过 移 位 和 加 法 实现 的 乘法 速度 很 慢 。 实 际 的 计算 机 采用 了 多 种 方法 加 快 乘法 运算 
的 速度 。 例 如 ， 构 造 专门 的 逻辑 阵列 直接 得 到 两 个 数 的 积 而 不 必 对 操作 数 移 位 。 


与 负数 相 乘 

刚才 讨论 的 乘法 算法 只 适用 于 无 符号 数 乘 法 &。 请 考虑 一 个 整数 万 与 一 个 负数 -了 的 
乘法 ，- 了 用 二 进 制 补 码 表示 为 2 了。 

车 使 用 二 进 制 补 码 运算 ， 乘 积 X(-Y) WR X(2"-Y)=2X-XY, RIMA HH R 一 XY 
是 个 负数 ， 用 二 进 制 补 码 表示 应 为 2"-X7。 注 意 这 里 最 高 位 是 2， 而 不 是 2"， 因 为 两 个 
天 位 数 相 乘 会 得 到 一 个 长 度 为 2 到 位 的 积 。 为 了 得 到 正确 的 三 进 制 补 码 结果 ， 应 给 乘积 加 
上 一 个 矫正 因子 27-2" = 2"(2"—X), BP 2 了 -7X7T 2"(2"—X)=2""-XY (乘积 -X Y HEH 
二 进 制 补 码 表示 )。 矫正 因子 是 将 -不 的 二 进 制 补 码 乘 2"。 生 成 矫正 因子 并 将 它 与 来 积 相 
加 会 使 乘法 运算 的 速度 变 慢 。 下 面 来 看 一 个 例子 。 
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| 4 — we A Ria HX KU -Y, X=3, Y=2, 3H —MAMMA 0011, 24 
| 进 制 值 为 0010。-2 的 二 进 制 补 码 为 1101+1 = 1110。 这 样 ， 我 们 用 0110 RA 1110, F 
到 8 位 二 进 制 数 00101010， 即 十 进 制 数 +42。 这 个 值 比 正确 的 结果 大 -2"N, -X HH 
1101 (二 进 制 补 码 表示 ); 乘 以 2 得 到 11010000。 为 了 得 到 正确 结果 ， 应 将 乘积 与 这 个 
矫正 因子 相 加 ， 即 00101010 + 11010000 = 11111010。 当 然 ， 这 是 -6 的 二 进 制 补 码 表 
示 ， 就 是 正确 的 结果 。 

布 斯 乘法 

布 斯 乘法 是 两 个 二 进 制 补 码 有 符号 数 相 乘 的 经 典 方法 ， 它 适用 于 两 个 正 数 、 一 个 负 
数 和 一 个 正 数 、 两 个 负数 相 乘 的 情形 。 布 斯 乘法 与 传统 的 二 进 制 无 符号 数 冬 法 相似 ， 但 
| 有 一 些 不 同 。 它 将 根据 乘 数 相 邻 两 位 的 值 确定 接 下 来 将 进行 以 下 3 种 操作 的 哪 一 种 。 

1. 车 乘 数 当前 位 为 1， 下 一 位 为 0， 则 用 部 分 积 减 去 乘 数 ， 得 到 新 的 部 分 积 。 

2. 车 来 数 当前 位 为 0， 下 一 位 为 1， 则 用 部 分 积 加 上 乘 数 ， 得 到 新 的 部 分 积 。 

3. 车 乘 数 当前 位 与 下 一 位 相同 ， 则 什么 也 不 做 。 

注意 事项 1, 当 被 乘 数 与 部 分 积 相 加 时 ， 产 生 的 进位 将 被 丢弃 。 

注意 事项 2. 部 分 积 移 位 时 ， 使 用 算术 移 位 ， 最 高 位 补 符号 位 。 

注意 事项 3, 乘法 开始 时 ， 乘 数 的 当前 位 (第 于 位) 为 其 最 低位 时 ， 下 一 位 (第 ntl 
位 ) 为 0。 

表 2-4 描 述 了 5 位 三 进 制 补 码 布 斯 乘法 的 +15 乘 以 -13 (01111x10011 ) 的 过 程 。 
结果 为 1100111101:， 对 应 值 为 -195。 

表 2-4， 布 斯 乘法 实例 













部 分 积 

Si ysi 0000000000 

减 去 被 乘 数 100110 1000100000 

| 部 分 积 右 移 1 位 1100010000 
| 什么 也 不 做 10011 1100010000 
部 分 积 右 移 1 位 1110001000 

| 加 上 被 乘 数 10011 10101101000 
| 部 分 积 右 移 1 位 0010110100 
| 什么 也 不 做 10011 0010110100 
部 分 积 右 移 1 位 0001011010 

减 去 被 乘 数 10011 1001111010 

部 分 积 右 移 1 位 1100111101 


有 些 程序 员 使 用 移 位 和 加 法 等 速度 相对 较 快 的 操作 以 避免 使 用 乘法 。 请 考虑 P 乘 以 10 
和 乘 以 9 这 两 个 例子 。 

10P=2x (2x2xP+P); 即将 己 左 移 两 次 ， 加 上 已 ， 再 将 和 左 移 一 次 。 

9P= 2x2x2xP+P; 即将 P 左 移 三 次 , 加 上 PP 得 到 结果 。 

乘法 运算 也 可 以 借助 查找 表 (look-up table) 实现 ， 这 种 方法 将 两 个 数 相 乘 所 有 可 能 的 
积 都 保存 在 一 个 只 读 存储 器 内 。 这 样 ， 只 需 简单 地 用 了 革 和 了 的 值 找到 表 中 的 对 应 项 就 可 以 
得 到 X 和 了 的 乘积 。 例 如 ， 两 个 8 位 二 进 制 数 乘法 需要 一 个 16 位 地 址 ( 即 两 个 8 位 字 )、2" 
项 的 查找 表 ， 每 项 记录 了 一 个 16 位 的 积 。 计 算 00001010 乘 以 00111100 的 积 只 需 读 出 地 址 
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J 0000101000111100 的 项 的 内 容 00000010010110000. 

这 种 方法 的 缺点 在 于 所 需 ROM 的 容量 随 着 乘 数 和 被 乘 数位 数 的 增加 旦 指数 增长 。n 位 
乘法 需要 的 ROM 容量 为 2n x 2” 位 ; 例如 8 位 乘法 需要 容量 为 16 x2" 位 的 ROM. 

可 以 用 一 个 简单 的 方法 来 减少 查找 表 的 大 小 。 假 设 要 计算 两 个 16 位 数 4 与 B 的 乘积 。 
可 以 将 16 位 数 4 拆 分 为 两 个 8 位 数 4, 和 41/， 这 里 4, 是 4 的 高 8 位 而 4 是 4 的 低 8 位 。 如 
果 4=1111000010101010， 则 4,=11110000, 4.=10101010, A 可 被 表示 为 4,x256+4,，B 可 
被 表示 为 B,x 256+B,。 现 在 ， 请 考虑 乘积 A x B。 

Ax B= (A,x 256+4,) x (B,x 256+B,) =65536A,B,+256A4,B,+256A,B,+A,B, 

这 个 表达 式 需要 计算 4 个 8 位 乘积 (ABa ABar A,B, AB), RER 16 位 或 8 位 ( 即 
乘 以 65536 或 256 )， 以 及 将 4 个 部 分 积 相 加 等 操作 。 这 样 ， 可 以 用 8 位 乘法 和 4 个 加 法 来 
完成 16 位 乘法 。 实 际 上 ， 借 助 硬 件 有 很 多 办 法 可 以 加 快 乘法 运算 的 速度 。 


2.5.4 BRE 


除法 是 通过 被 除数 不 断 地 减 去 除数 直到 结果 为 零 或 小 于 除数 来 实现 的 。 减 去 除数 的 次 数 
称 作 “ 商 (quotient)”， 最 后 一 次 减法 的 差 称 作 “ 余 数 (remainder)”。 也 就 是 说 ， 
被 除数 / 除数 = 商 十 余数 /除数 
在 讨论 二 进 制 除法 之 前 ,我 们 首先 看 看 人 们 在 纸 上 笔算 完成 十 进 制 除法 的 过 程 。 下 面 的 
算式 描述 了 575 除 以 25 的 过 程 ，。 


商 
除数 | 被 除数 25 | 575 
第 一 步 是 比较 除数 和 被 除数 的 最 高 两 位 ， 看 看 被 除数 的 最 高 两 位 中 有 几 个 除数 。 这 个 例 
子 中 答案 为 2 ( 即 2x25 = 5$0 )， 并 用 57 减 去 2x25。 在 商 的 最 高 位 上 写 下 数字 2， 得 到 下 面 
的 算式 。 
2 


25| 575 


50 
7 
将 被 除数 的 下 一 个 数字 5 移 下 到 7 的 后 面 ， 并 比较 除数 和 75。 由 于 75 正好 是 25 的 整 
倍数 ， 因 此 应 在 商 的 下 一 位 上 写 下 数字 3 并 得 到 


00 
因为 已 经 处 理 到 被 除数 的 最 后 一 位 且 75 正好 是 除数 的 整 倍数 ， 因 此 除法 结束 ， 商 为 
23 ， 余 数 为 0。 上述 除 法 过 程 的 难点 在 于 估计 部 分 被 除数 中 有 多 少 个 除数 〈 即 57 除 以 25 等 
于 2 余 7)。 请 考虑 用 无 符号 二 进 制 除法 完成 同样 的 例子 。 
25 = 11001, 575 = 1000111111, 


11001 | 1000111111 


11001 
被 除数 的 前 5 位 比 除 数 小 ， 因 此 商 的 最 高 位 商 0 并 将 除数 与 被 除数 的 前 6 位 比较 。 
01 
11001| 1000111111 
11001 
001010 
被 除数 的 前 6 位 中 有 一 个 除数 ， 减 法 后 得 到 新 的 部 分 被 除数 为 001010 (1111 )。 将 被 除 
数 的 下 一 位 移 下 来 ， 可 得 





010 
11001 | 1000111111 
11001 
010101 
11001; 
新 的 部 分 被 除数 小 于 除数 ， 因 此 商 的 下 一 位 商 0。 后 续 的 除法 过 程 如 下 : 
010111 
11001 | 1000111111 
11001 
101011 
11001 
100101 
11001 
11001 
11001 
00000 








除法 结果 商 为 10111， 余 数 为 0。 

1. 恢复 余数 除法 

稍 加 改动 ， 刚 才 讨 论 的 除法 方法 就 可 以 以 数字 形式 实现 。 唯 一 需要 修改 的 就 是 除数 与 部 
分 被 除数 的 比较 方法 。 人 们 用 心算 进行 比较 ， 而 计算 机 必须 做 减法 并 检测 结果 的 符号 位 。 如 
果 减 法 的 结果 为 正 ， 则 商 1， 但 若 结果 为 负 ， 则 应 商 0 并 将 部 分 被 除数 与 除数 相 加 ， 将 其 恢 
复 为 原先 的 值 。 

下 面 是 一 个 可 行 的 恢复 余数 除法 算法 。 

1 ) 将 除数 的 最 高 位 与 被 除数 的 最 高 位 对 齐 。 

2) 从 部 分 被 除数 中 减 去 除数 ， 得 到 新 的 部 分 被 除数 。 

3 ) 若 新 的 部 分 被 除数 为 负 ， 则 商 0 并 用 新 的 部 分 被 除数 加 上 除数 ， 恢 复原 先 的 部 分 被 除数 。 

4) 若 新 的 部 分 被 除数 为 负 ， 则 商 1。 

5) 判断 除法 是 否 结束 。 若 除数 的 最 低位 与 部 分 被 除数 的 最 低位 对 齐 ， 则 除法 结束 。 最 
后 的 部 分 被 除数 就 是 余数 。 和 否则， 执行 第 6 步 。 

6 ) 将 除数 右 移 1 位 。 从 第 2 步 继续 执行 。 
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图 2-4 描述 了 该 算法 的 流程 图 。 下 面 按照 该 流程 计算 01100111, KE 1001， 即 十 进 制 
数 103 除 以 9， 其 结果 为 商 11 余 4。 表 2-5 逐步 列 出 了 除法 的 过 程 。 


将 除数 的 最 高 位 与 被 除 
数 的 最 高 位 对 齐 


部 分 被 除数 减 去 除数 


商 左 移 1 位 ， 最 低位 补 0 商 左 移 1 位 ， 最 低位 补 1 


将 除数 与 部 分 被 除数 相 
加 以 恢复 部 分 被 除数 ， 


除数 右 移 1 位 
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图 2-4 ”恢复 余数 除法 的 流程 图 
表 2-5 ”恢复 余数 除法 实例 ，01100111 除 以 1001 


步骤 描述 o 部 分 被 除数 除数 商 
01100111 00001001 00000000 
1 对 齐 01100111 01001000 00000000 
2 部 分 被 除数 减 去 除数 00011111 01001000 00000000 
4 结果 为 正 一 一 商 左 移 1 位 ， 最 低位 补 1 00011111 01001000 00000001 
5 测试 结束 
6 除数 右 移 1 位 00011111 00100100 00000001 
2 部 分 被 除数 减 去 除数 -00000101 00100100 00000001 
3 恢复 余数 ， 商 左 移 1 位 ， 最 低位 补 0 00011111 00100100 00000010 
5 测试 结束 
6 除数 右 移 1 位 00011111 00010010 00000010 
2 部 分 被 除数 减 去 除数 00001101 00010010 00000010 
4 结果 为 正 一 一 商 左 移 1 位 ， 最 低位 补 1 00001101 00010010 00000101 
5 测试 结束 
6 除数 右 移 1 位 00001101 00001001 00000101 
2 部 分 被 除数 减 去 除数 00000100 00001001 00000101 
4 结果 为 正 一 一 商 左 移 1 位 ， 最 低位 补 1 00000100 00001001 00001011 
5 测试 结束 
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2. 不 恢复 余数 除法 

改进 图 2-4 中 的 恢复 余数 除法 可 以 减少 除法 的 延迟 。 不 恢复 余数 除法 与 恢复 余数 法 基本 
相同 ， 唯 一 的 区 别 在 于 它 取 消 了 恢复 余数 的 操作 。 在 恢复 余数 除法 中 ,在 部 分 被 除数 与 除数 
相 加 恢复 部 分 被 除数 之 后 的 一 个 周期 ， 部 分 被 除数 将 减 去 除数 的 二 分 之 一 。 每 个 将 除数 右 移 
的 操作 等 价 于 将 除数 除 以 2。 当 前 周期 恢复 部 分 被 除数 以 及 下 个 周期 减 去 除数 一 半 的 操作 等 
价 于 部 分 被 除数 加 上 除数 的 一 半 。 即 刀 - D/2 = +D/2， 这 里 DD 为 除数 。 

图 2-5 给 出 了 不 恢复 余数 除法 的 流程 图 。 部 分 被 除数 减 去 除数 之 后 ， 将 检测 新 的 部 分 被 
除数 的 符号 位 。 若 为 负 ， 则 商 左 移 1 位 ， 商 的 最 低位 补 0， 并 将 部 分 被 除数 加 上 除数 的 二 分 
之 一 。 若 为 正 ， 则 商 左 移 1 位 ， 商 的 最 低位 补 1， 并 将 部 分 被 除数 减 去 除数 的 二 分 之 一 。 表 
2-6 列 出 了 用 不 恢复 余数 除法 完成 表 2-5 中 算 例 的 过 程 。 


A 


将 除数 的 最 高 位 与 被 
除数 的 最 高 位 对 齐 















部 分 被 除数 减 去 除数 


REA 1 位 


检测 部 分 
被 除数 是 
正 还 是 负 
商 左 移 1 位 ， 最 低位 补 1。 商 左 移 1 位 ， 最 低位 补 0。 
部 分 被 除数 减 去 除数 。 部 分 被 除数 加 上 除数 。 


修正 以 得 到 正确 的 余数 
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图 2-5 不 恢复 余数 除法 的 流程 图 
表 2-6 不 恢复 余数 除法 实例 ，01100111 除 以 1001 


步骤 描述 部 分 被 除数 除数 商 
01100111 00001001 00000000 
1 对 齐 01100111 01001000 00000000 
2 部 分 被 除数 减 去 除数 00011111 01001000 00000000 
3 除数 右 移 1 位 00011111 00100100 00000000 


检测 部 分 被 除数 的 符号 一 一 商 左 移 1 位 ， 最 低位 补 1， 部 
分 被 除数 减 去 除数 


ES 


—00000101 00100100 00000001 
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(4%) 
步骤 描述 部 分 被 除数 除数 商 
6 判断 是 否 结束 —00000101 00100100 00000001 
3 除数 右 移 1 位 -00000101 00010010 00000001 
检测 部 分 被 除数 的 符号 一 一 商 左 移 1 位 ， 最 低位 补 0， 部 
分 被 除数 减 夫 除数 00001101 00010010 00000010 
6 判断 是 否 结 00001101 00010010 00000010 
3 除数 右 移 1 位 00001101 00001001 00000010 
检测 部 分 被 除数 的 符号 一 一 商 左 移 1 位 ， 最 低位 补 1， 部 
分 被 除数 碱 夫 除数 00000100 00001001 000000101 
6 判断 是 否 结束 00000100 00001001 00000101 
3 除数 右 移 1 位 00000100 0000100.1 00000101 
检测 部 分 被 除数 的 符号 一 一 商 左 移 1 位 最 低位 补 1， 部 
分 被 除数 减 夫 除数 -00000000.1 ”0000100.1 00001011 
6 判断 是 否 结束 —00000000.1 0000100.1 00001011 
7 修正 余数 00000100 0000100.1 00001011 


2.6 FAB 

介绍 了 整数 之 后 ， 下 一 步 就 是 讨论 浮 点 运算 ， 即 实数 之 间 的 运算 。 实 数 是 所 有 有 理 数 和 
无 理 数 的 集合 。 浮 点 运算 能 够 让 人 们 处 理科 学 应 用 (与 金融 或 商业 应 用 相对 ) 中 很 大 的 和 很 
小 的 数 。 浮 点 运算 不 像 整数 运算 ， 它 的 计算 结果 一 般 是 不 确定 的 。 一 块 芯片 上 的 浮 点 计算 结 
果 也 许 与 另 一 块 芯 片上 的 不 同 。 后 面 将 解释 为 什么 浮 点 运算 无 法 获得 确定 的 答案 ， 并 讨论 一 
些 程序 员 必 须 了 解 的 陷阱 。 

n 位 字 长 的 计算 机 能 够 处 理 值 为 0 ~ 2-1 的 单字 长 无 符号 整数 。 更 大 的 整数 可 以 通过 
将 多 个 字 链 接 在 一 起 来 表示 。 例 如 ， 一 台 32 位 的 计算 机 可 以 将 两 个 32 位 字 拼 接 在 一 起 以 处 
BH 64 位 数 (一 个 表示 64 位 数 的 高 半 部 分 ， 另 一 个 表示 它 的 低 半 部 分 )。 科 学 家 和 工程 师 经 
常会 处 理 值 范围 极 大 的 数 (例如 ， 从 电子 的 质量 到 星体 的 质量 )。 这 些 数 被 表示 为 浮 点 数 并 
进行 处 理 ， 之 所 以 这 样 叫 是 因为 小 数 点 在 数 中 的 位 置 并 不 是 固定 的 。 一 个 浮 点 数值 分 两 部 分 
存储 : 数值 以 及 小 数 点 在 数值 中 的 位 置 。 

浮 点 数 表示 也 被 称 作 “科学 计数 法 "， 因 为 科学 家 用 它 来 表示 很 大 或 很 小 的 数 。 
1.2345 x 10", 0.4599x 10°, -8.5x 10° 等 都 是 十 进 制 浮 点数 。 在 十 进 制 运算 中 ， 科 学 计数 
法 表示 的 数字 被 写成 尾数 x 10 党 的 形式 ， 这 里 尾数 表示 这 个 数 ， 而 指数 则 以 10 的 整数 宕 为 
倍数 将 其 扩大 或 缩小 。 

二 进 制 浮 点 数 则 被 表示 为 尾数 x2* 时 的 形式 。 例 如 ，101010.111110;, 可 被 表示 
为 1.01010111110x25， 这 里 尾数 为 1.01010111110， 指 数 为 5 (用 8 位 二 进 制 数 表示 为 
00000101). SK, Ais mantissa (尾数 ) 已 被 替换 为 significand 以 表示 浮 点 数 中 有 效 位 
的 位 数 。 由 于 浮 点 数 被 定义 为 两 个 值 的 积 ， 浮 点 数 的 表示 并 不 唯一 ; 例如 10.110 x2 = 
1.0110 x 2°, 

多 年 以 来 ,计算 机 系统 使 用 了 很 多 不 同 的 方法 表示 浮 点 数 的 尾数 和 指数 。20 世纪 70 年 
代 ， 一 种 标准 的 浮 点 数 表示 方法 快速 地 取代 了 大 多 数 系统 自 有 的 格式 。IEEE 754 浮 点 数 标 
准 提供 了 3 种 浮 点 数 表示 : 32 位 单 精度 浮 点 数 ，64 位 双 精 度 浮 点 数 ， 以 及 128 位 四 精度 浮 
点 数 。 
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1. 规格 化 浮 点 数 

IEEE 754 浮 点 数 的 尾数 总 是 规格 化 的 (除非 它 等 于 0)， 其 范围 为 1.000…0x2° 到 
1.111…1x2“， 这 里 e 为 指数 。 规 格 化 浮 点 数 的 最 高 位 总 是 1。 规 格 化 使 尾数 的 所 有 位 都 是 
有 效 的 ， 因 而 尾数 的 精度 最 高 。 若 某 个 浮 点 计算 的 结果 为 0.110… x 2“， 它 应 被 规格 化 为 
1.10… x 2°". TARE, SE 5% 10.1… x 2° 应 被 规格 化 为 1.01… x 2°". 

尾数 规格 化 充分 利用 了 可 用 的 最 大 精度 。 例 如 ， 一 个 8 位 非 规 格 化 的 尾数 0.0000101 只 
有 4 个 有 效 位 ， 而 规格 化 后 的 8 位 尾数 1.0100011 则 有 8 个 有 效 位 。 

2. 偏 置 指 数 

IEEE 754 浮 点 数 的 尾数 被 表示 为 符号 和 数值 的 形式 ， 即 用 一 个 符号 位 表示 它 是 正 数 还 
是 负数 。 它 的 指数 则 用 偏 置 方式 表示 ， 即 给 真正 的 指数 加 上 一 个 常数 。 假 定 所 用 的 指数 为 8 
位 ， 偏 置 值 为 127。 若 一 个 数 的 指数 为 0， 它 被 保存 为 0 + 127 = 127。 若 指数 为 -2， 则 被 保 
存 为 -2 + 127 = 125。 实 数 1010.1111 规格 化 的 结果 为 +1.010111 x 2 。 指 数 为 +3， 将 被 保 
存 为 3+ 127= 130; 即 130 或 用 二 进 制 表示 为 10000010。. 

这 种 用 偏 置 表示 指数 的 方法 的 优点 在 于 ， 最 小 的 
负 指 数 被 表示 为 0。 若 不 采用 这 种 方法 ，0 的 浮 点 表 
示 为 0.0…0x 2 有 has 数 。 采 用 偏 置 指数 之 后 ,0 就 可 -于 灼 
以 用 尾数 0 和 指数 0 表示 ， 如 图 2-6 所 示 。 


2.6.1 IEEE 浮 点 数 图 2-6 0 的 二 进 制 浮 点 数 表示 


一 个 32 位 IEEE 754 单 精度 浮 点 数 可 以 被 表示 为 下 面 的 二 进 制 位 串 : 

S EEEEEEEE 1.MMMMMMMMMMMMMMMMMMMMMMM 

这 里 5 为 符号 位 ， 指 明 这 个 数 是 正 数 还 是 负数 ; EE 为 8 位 偏 置 指 数 ， 指 出 了 小 数 点 的 
位 置 ; M 是 23 位 小 数 尾 数 。 细 数 这 个 数 ， 我 们 会 发 现 它 有 33 位 而 不 是 32 位 ， 这 是 因为 当 
这 个 数 被 保存 在 存储 器 中 时 ， 尾 数 最 前 的 那个 1 被 省 掉 了 。 只 有 用 M 表示 的 尾数 的 小 数 部 
分 才 会 被 存 人 存储 器 中 (后面 将 很 快 介绍 这 样 做 的 原 
因 )。 图 2-7 描述 了 32 位 浮 点 数 的 结构 。 
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总 长 32 位 
31 30 2322 0 





5S 位 为 符号 位 ， 决 定 了 数 的 符号 。 若 8= 0， 访 TATE PE? 
, #S=1, WR GH ERAM 
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的 尾数 扩大 或 缩小 2 的 巨 次 方 倍 ， 并 且 它 的 偏 置 值 
为 127。 例 如 浮 点 数 +1.11001…0x22 的 指数 为 12 + 
127 = 139,) = 10001011, 
IEEE 浮 点 数 的 尾数 总 是 规格 化 的 ， 其 值 在 1.0000---00 至 1.1111…11 之 间 ， 除 非 这 个 浮 
点 数 是 0， 此 时 尾数 为 0.000…00。 由 于 尾数 总 是 规格 化 的 ， 且 它 的 最 高 位 总 是 1， 因 此 将 尾 
数 存 人 存储 器 时 没有 必要 保存 最 高 位 的 1。 所以， 一 个 非 0 的 IEEE 754 浮 点 数 可 被 定义 为 : 
R= ET 


符号 位 
图 2-7 32 位 IEEE 浮 点 数 的 结构 


式 中 : 
S= 符 号 位 ; 0= 正 尾数 ; 1= 负 尾数 ; E= iN B 的 指数 ; F= 尾数 的 小 数 部 分 ( 注 
意 实际 尾数 为 1 . F, ARAHI) 
前 面 已 经 提 到 ， 浮 点 数 0 应 被 表示 为 $=0, E=0,，M=0( 即 浮 点 数 0 用 全 0 表示 )。 
IEEE 浮 点 数 被 称 为 字典 序 的 ， 因 为 无 论 两 个 数 是 被 当 作 浮 点 数 还 是 有 符号 整数 ， 它 们 
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的 大 小 顺序 都 是 相同 的 。 这 一 特性 意味 着 人 们 可 以 用 简单 的 逻辑 电路 比较 两 个 浮 点 数 的 大 
小 ， 电 路 的 复杂 度 与 浮 点 表示 的 复杂 度 无 关 。 

请 考虑 下 面 的 例子 : 如 何 将 一 个 32 位 IEEE 单 精度 浮 点 数 了 解压 缩 为 一 个 符号 位 、 一 
个 偏 置 指数 和 一 个 尾数 。 钱 = 11000001100110011000000000000000。 解 压缩 这 3 个 字段 得 到 

S=1, E=10000011, 且 F=.00110011000000000000000 

为 了 得 到 实际 的 尾数 ， 当 解压 缩 尾 数 时 我 们 会 在 所 保存 的 尾数 的 小 数 
部 分 之 前 增加 一 位， 得 到 1.00110011000000000000000。 因 此 这 个 数 等 于 
~1.00110011000000000000000 x 2 = —1, 00110011000000000000000 x 2* = 
-10011.0011。 

1. IEEE 浮 点 数 格式 

ANSI/IEEE 754-1985 标准 定义 了 基本 的 和 扩展 的 浮 点 数 格式 ， 以 及 一 组 数量 有 限 的 算 
术 运 算 的 规则 (加 、 减 、 乘 、 除 、 平 方 根 、 求 余 和 比较 )。 

非 数 (Not a Number, NaN) 是 IEEE 754 标准 的 一 个 重要 概念 。NaN 是 IEEE 754 标准 提 
供 的 一 个 专门 符号 ， 代 表 IEEE 754 标准 格式 所 不 能 表示 的 数 。NaN 的 使 用 和 定义 是 与 系统 
相关 的 ， 可 以 用 NaN 来 表示 所 需要 表达 的 任何 信息 。 

IEEE 754 标准 定义 了 3 种 浮 点 数 格式 : 单 精度 、 双 精度 和 四 精度 ( 见 表 2-7 )。 在 32 位 
IEEE 754 单 精 度 浮 点 数 格式 中 ,最 大 指数 Ema 为 +127， 最 小 指数 Eu 为 -126， 并 不 是 我 
们 所 想 的 +128 ~ -127 Emn! (BP -127 ) 用 来 表示 浮 点 0，E,sx+1 用 来 表示 正 / 负 无 穷 大 
或 NaN 数 。 

表 2-7 IEEE 754 浮 点 数 格式 


单 精度 双 精 度 ( 单 精度 扩展 ) 四 精度 ( 双 精 度 扩展 ) 

字段 位 数 

5S= 符 号 位 1 1 1 

EE= 指 数 8 11 15 

L= 开始 位 .1 (不 保存 ) 1 (不 保存 ) 1 (不 保存 ) 

下 = 小 数 部 分 23 a 52 111 

全 部 长 度 32 64 128 
指数 

的 最 大 值 255 2047 32,767 

巨 的 最 小 值 0 0 0 

偏 置 常数 127 1023 16,383 
Be 127 1023 16,383 
E win -126 一 1022 ~16,382 


注 ; 8= 符号 位 (0 表示 整数 ，] 表示 负数 ); 
L = 起 始 位 (规格 化 非 0 尾数 的 起 始 位 总 是 1 ); 
瓦 = 尾数 的 小 数 部 分 ; 
旨 数 的 范围 为 已 的 最 小 值 +1 至 已 的 最 大 值 -1; 
所 表示 的 浮 点 数值 为 (一 1 ) Sx 2° AE xP; 
三 种 格式 中 的 浮 点 0 都 被 表示 为 最 小 指数 ，L=0 L F=0; 
三 种 格式 中 最 大 指数 Ent 都 表示 有 符号 的 无 穷 大 。 


解压 缩 浮 点 数 时 ， 浮 点 数 指数 和 尾数 的 位 数 都 会 增加 ， 这 种 格式 被 称 为 扩展 格式 。 通 过 
格式 扩展 ， 浮 点 数 的 表示 范围 和 精度 都 增加 了 。 例 如 ， 解 压缩 一 个 32 位 浮 点 数 时 ， 增 加 起 
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始 位 1 可 将 23 位 的 尾数 小 数 部 分 扩展 到 24 位 ， 然 后 尾数 被 扩展 为 32 位 (要 么 作为 一 个 32 
位 字 ， 要 么 作为 两 个 16 位 字 )。 接 下 来 的 所 有 运算 都 在 32 位 扩展 精度 的 尾数 上 进行 。 扩 展 
格式 上 的 运算 完成 之 后 ， 运 算 结果 按照 原先 的 格式 重新 压缩 并 保存 在 存储 需 中 。 
最 小 指数 的 绝对 值 小 于 最 大 指数 的 绝对 值 ， 以 确保 计算 最 小 数 的 倒数 时 不 会 产生 上 液 。 
当然 ， 反 过 来 就 意味 着 最 大 数 的 倒数 会 产生 下 游 。 不 过 下 溢 带 来 的 问题 没有 上 溢 那 么 严重 。 
图 2-8 描述 了 IEEE 单 精度 浮 点 数 格式 。 指 数 E=0 和 6=255 等 特例 分 别 被 用 于 表示 浮 点 
0、 非 规格 化 小 数 、 正 或 负 无 穷 大 ， 以 及 NaN 数 等 。 


规格 化 浮 点 数 
的 范围 


1s E< 254 
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正 0 或 负 0 非 规格 化 渐 正 或 负 无 穷 大 NaN 
的 表示 HER FAEK 
图 2-8 单 精度 IEEE 浮 点 数 区 间 





















| 十进制 数 转换 为 二 进 制 浮 点 数 的 实例 
下 面 将 十 进 制 数 4100.1251o 转换 为 符合 IEEE 754 标准 的 32 位 单 精度 二 进 制 浮 点 数 。 
| 首先 将 4100.125 转换 为 二 进 制 定点 数 ， 整 数 部 分 4100iu = 1000000000100,， 小 数 部 
| X 0.1251 = 0.001, Ast, 4100.125,) = 1000000000100.001,. 
| 下 一 步 是 二 进 制 数 1000000000100.001, 的 规格 化 ， 将 小 数 点 左 移 直到 尾数 变 为 1.xxx 
| 的 形式 。 每 次 小 数 点 左 移 1 位， 指数 就 加 1。 这 一 步 将 得 到 1.000000000100001x22。 最 
后 的 结果 如 下 : 

e 符号 位 8 为 0， 因 为 这 个 数 是 正 数 。 

e 指数 为 12 + 127 = 139, = 10001011,. 

e 尾数 为 00000000010000100000000 (起 始 位 1 被 省 略 并 将 尾数 扩展 为 23 位 )。 

© 因此 结果 为 01000101100000000010000100000000， 用 16 进 制 表示 就 是 45802100,,. 


二 进 制 浮 点 数 转换 为 十 进 制 数 
| 下 面 进 行 相反 的 转换 。 请 考虑 十 六 进 制 数 C46C0000is。 这 个 数 的 二 进 制 形式 为 110. 
00100011011000000000000000000。- 第 一 步 是 将 这 个 数 解压 缩 ， 得 到 符号 位 8、 偏 置 指数 
已 和 尾数 的 小 数 部 分 不。 
e S=1 
e E= 10001000 
e F =11011000000000000000000 


由 于 符号 位 为 1， 这 个 数 是 负数 。 偏 置 指数 10001000, 减 去 127 得 到 实际 指数 
10001000, 一 01111111, = 00000111, = 7io。 尾 数 的 小 数 部 分 为 .11011000000000000000000,。 
-加 上 起 始 位 后 得 到 1.11011000000000000000000,。 这 个 数 是 一 1.11011000000000000000000, x 


— 
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| 2’, 或 一 11101100, (FF -236,,). 

| 请 考虑 C4962800,, = 11000100100101100010100000000000,, EDA S, E 
a 

| S=1,E=10001001=137i;6=137 一 127=10,0 (真实 指数 ),M=1.F=1.001011000101,。 
| “这 个 一 进 制 数 是 ~ 10010110001. :01 = -1201, 250 
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2. IEEE 浮 点 数 的 特点 
首先 来 看 看 浮 点 数 的 一 些 不 明显 的 特点 。 请 考虑 两 个 浮 点 数 FF 和 的 差 ， 这 两 个 数 只 
有 最 低位 不 同 ; 即 
d=F,—F =e,x1. fre, X 1. f=2°" X 1. f2” X 1, f=2°” x 0.000,.., 1 
PUP RA EE 2? x 2°", E p RIN, bE Re 的 偏 置 常数 。 当 指数 e 的 
值 很 大 时 ， 两 个 连续 的 浮 点 数 的 差 也 很 大 ; mM b 的 值 很 小 时 ， 差 也 很 小 。 





浮 点 数 的 另 一 个 特点 与 接近 0 时 的 情形 有 关 。 图 2-9 描述 了 一 个 指数 为 2 位 ,尾数 
为 2 位 的 浮 点 数 系 统 。 浮 点 数 0 表 示 为 00 000。 下 一 个 规格 化 的 正 数 表示 为 00 100 (EU 
2“x1.00， 这 里 5b 为 偏 置 常数 )。 

指数 。” ”尾数 位 起 始 位 1 Š 
00111 00110 00101 00 100 00 000 00100 00101 00110 00111 $ 
负 实 数 — EEK = 正 实数 


图 2-9 接近 0 的 浮 点 数 


图 2-9 说 明 ， 浮 点 数 0 附 近 有 一 块 禁止 区 ， 其 中 的 浮 点 数 都 是 非 规 格 化 的 ， 因 此 无 法 
被 表示 为 IEEE 标准 格式 。 这 个 数 的 指数 和 起 始 位 都 是 0 的 区 域 ， 也 可 用 来 表示 浮 点 数 。 不 
过 ， 这 些 数 都 是 非 规 格 化 的 ， 其 精度 比 规格 化 数 的 精度 低 ， 会 导致 渐进 式 下 滋 。 
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e IEEE 754 REPRE, RAEWSARKGEARIEHUMSA, wWR-PREHRY 
最 近 的 可 表示 的 值 的 距离 相等 ， 则 选择 最 低位 为 0 的 作为 合 入 值 ; 也 就 是 说 ， 向 
偶数 值 舍 入 。 标 准 要 求 必 须 提 供 另 外 3 种 舍 入 模式 (向 0 舍 入 ， 向 正 无 穷 大 舍 入 ， 
向 负 无 穷 大 舍 入 )。 

o IEEE 标准 规定 了 4 种 比较 结果 ， 分 别 是 等 于 、 小 于 、 大 于 和 无 序 (unordered)。 
最 后 一 种 一 一 无 序 ， 用 于 一 个 操作 数 是 NaN 数 的 情形 。 

© IEEE 标准 规定 了 5 种 异常 。 异 常 或 中 断 是 一 种 强制 计算 机 进行 专门 处 理 机 制 。 
IEEE 标准 定义 的 异常 有 : 


操作 数 不 合 法 一 一 当 程 序 员 试 图 使 用 一 些 不 合法 的 操作 数 (de NaN 数 ， 与 无 穷 大 数 
相 加 或 相 减 时 ， 或 求 负 数 的 平方 根 ) 时 ， 会 引发 这 种 异常 。 

除数 为 0 一 一 当 除 数 为 0 (因为 结果 为 无 穷 大 ) 时 ， 会 引发 这 种 异常 。 

上 滋 一 一 当 结 果 比 最 大 浮 点 数 还 大 时 会 引发 这 种 异常 -处理 上 溢 的 方法 有 终止 计算 、 

iz 《用 最 大 值 作为 结果 ) 等 。 浮 点 运算 的 上 溢 与 有 符号 整数 运算 的 上 浇 不 同 
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| 下 洲 一 一 当 结 果 比 最 小 浮 点 数 还 小 时 会 引发 这 种 异常 ; 也 就 是 说 ， 结 果 小 于 2"。 
下游 可 以 通过 将 最 小 浪 点 数 设 为 0 或 用 一 个 小 于 20 OE AACR RR NF RCE 
| AH 5 
| 结果 不 准确 一 一 当 某 个 操作 产生 合 入 错误 时 会 引发 这 种 异常 。 
© NaN 在 表达 式 中 传播 ; 即 若 一 个 表达 式 的 一 部 分 为 NaN， 表 达 式 的 结果 也 是 
NaN. 
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2.7 浮 点 运算 


浮 点 数 不 能 直接 相 加 。 下 面 以 一 个 简单 的 8 位 尾数 和 一 个 未 对 齐 的 指数 为 例 说 明 浮 点 运 
$, A=1.0101001 x 2*, B= 1.1001100x2-。 若 要 计算 这 两 个 数 的 乘积 ， 应 将 尾数 相 乘 ， 指 
数 相 加 ; BI 

A+ B=1.0101001 xX 2*X 1.1001100 x 2’ 
= 1.0101001 x 1.1001100 x 2°" 
= 1.000011010101100 x 2°. 
现在 来 看 看 浮 点 加 法 。 笔 算 时 人 们 会 像 下 面 那样 自动 地 将 4 与 互 的 小 数 点 对 章 ， 
10101.001 
+ 1100.1100 
100001.1110 
然而 ， 由 于 浮 点 操作 数 已 经 被 表示 为 规格 化 形式 ， 计 算 机 在 进行 浮 点 加 法 时 面临 以 下 问题 : 
1.0101001 x 2* 
+1.1001100 x 2° 

为 了 对 齐 指数 ， 计 算 机 必须 执行 下 面 的 步骤 : 

第 1 步 ， 找 出 指数 较 小 的 那个 数 。 

第 2 步 ， 使 两 个 数 的 指数 相同 。 对 于 指数 小 的 那个 数 ， 指 数 加 几 ， 就 将 尾数 右 移 几 位 。 

第 3 步 ， 尾数 相 加 (或 相 减 )。 

第 4 步 ， 如 果 有 必要 ， 将 结果 规格 化 (后 规格 化 )。 

在 这 个 例子 里 ，4 = 1.0101001 x2 H B= 1.1001100 x 2°. B 的 指数 比 4 的 小 ， 应 将 B 
的 指数 加 1， 使 它 与 4 的 指数 相等 。 由 于 指数 加 1 会 使 8B 的 值 增加 2 倍 ， 应 将 8 的 尾数 除 
2， 即 将 其 右 移 1 位 。 这 两 个 操作 使 B 的 值 保持 不 变 ， 但 被 表示 为 0.110011 x 2 。 现 在 就 可 
以 将 A 与 非 规格 化 的 B 相 加 了 。 

A= 1.0101001 x 2* 
B=+0.1100110 x 2 
10.0001111 x 2* 

加 法 的 结果 不 是 规格 化 数 ， 因 为 它 的 整数 部 分 是 10,。 因 此 需要 对 结果 作 规 格 化 处 理 。 
尾数 右 移 1 位 并 将 指数 加 1， 得 到 1.00001111 x 27。 结 果 的 位 数 的 精度 为 小 数 点 后 有 8 位 数 
F, 而 4 和 8B 的 尾数 在 小 数 点 后 只 有 7 位 数字 。 

图 2-10 给 出 了 浮 点 加 法 运算 的 流程 。 对 于 这 个 流程 图 ， 以 下 几 点 需要 注意 。 

1 ) 因为 指数 有 时 与 尾数 位 于 同一 个 字 中 ， 在 加 法 过 程 开始 之 前 必须 将 它们 分 离开 ( 解 
压缩 )。 
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2) 如 果 两 个 指数 的 差 大 于 p+1， 这 里 p 为 尾数 的 位 数 ， 较 小 的 那个 数 由 于 太 小 而 无 法 
影响 较 大 的 数 ， 结 果实 际 上 就 等 于 较 大 的 那个 数 。 例 如 ，1.1010 x2"+1.01x2 的 结果 为 
1.1010 x 2”， 因 为 指数 之 差 为 72。 

3) 结果 规格 化 时 会 检查 指数 ， 看 它 是 否 比 最 小 指数 小 或 比 最 大 指数 大 ， 以 分 别 检测 指 
数 下 溢 或 上 溢 。 指 数 下 溢 会 导致 结果 为 0， 而 指数 上 浇 会 造成 错误 ， 可 能 会 要 求 操作 系统 介 
和信 处理。 












dzax? 
B=bx2" 
尾数 a 和 4 表示 为 p 位 二 进 制 数 
81-€; > p+ 
or 
@,-@, > ptt 








尾数 a 右 移 1 位 ， 指 比较 e, 和 FER b A 1 fiz, 
M1, e,=e,+1 e 的 大 小 指数 加 1，e,=e,+1 


eme 


尾数 a 和 4b 相 加 


尾数 右 移 ， 指 数 | 高 于 上 限 检测 结果 
Hl, esel 的 尾数 


e, 二 最 小 值 





是 是 
错误 结束 错误 
指数 上 溢 指数 下 滋 


图 2-10 浮 点 加 法 和 减法 的 流程 图 
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舍 入 和 截断 误差 

因为 浮 点 运算 可 能 引起 尾数 位 数 的 增加 ， 因 此 需要 能 够 保持 尾数 位 数 不 变 的 方法 。 最 简 
单 的 技术 叫 作 截断 ( truncation)。 例 如 ， 将 0.1101101 截断 为 4 位 尾数 的 结果 为 0.1101。 截 
断 会 产生 诱导 误差 (induced error) ( 即 误差 是 由 施加 在 数 上 的 操作 计算 所 引起 的 )， 诱 导 误 差 
是 偏 置 的 ， 因 为 截断 后 的 数 总 是 比 截断 前 的 小 。 

4X (rounding) 是 一 种 更 好 的 减少 数 的 位 数 的 技术 。 如 果 丢 弃 的 位 的 值 大 于 剩余 数 
最 低位 的 一 半 ， 则 将 剩余 数 的 最 低位 加 1。 请 考虑 下 面 两 个 数 在 小 数 点 后 第 4 位 上 舍 人 的 
例子 。 

0.1101011 — 0.1101 删 去 的 三 位 为 011， 什 么 也 不 做 
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0.1101101 一 0.1101+1 = 0.1110 删 去 的 三 位 为 101， 因 此 加 1 

与 截断 相 比 ， 人 们 更 青睐 舍 人 ， 因 为 它 更 加 精确 并 会 引起 非 偏 置 的 误差 。 截 断 总 会 使 结 
果 变 小 ， 带 来 系统 性 误差 ， 而 舍 人 有 时 会 使 结果 减 小 ， 有 时 会 使 结果 增 大 。 舍 人 的 主要 不 足 
在 于 它 需要 对 结果 进行 一 个 额外 的 算术 操作 。 

图 2-11 描述 舍 入 机 制 。 最 简单 的 舍 入 机 制 是 截断 或 向 OAS "向 最 近 的 数 舍 人 ”方法 ， 
会 选择 距离 该 数 最 近 的 那个 浮 点 数 作为 结果 。“ 向 正 或 负 无 穷 大 舍 人 ”方法 ， 会 选择 正 或 
负 无 穷 大 方向 上 最 近 的 有 效 浮 点 数 作为 结果 。 当 要 舍 人 的 数位 于 两 个 连续 浮 点 数 的 正中 时 ， 
IEEE 舍 人 机 制 会 选择 最 低位 为 0 的 点 ( 即 向 偶数 会 入)。 


je] OBA HOA 癌 +oo 舍 人 
E oN sI 
TE> mam a a a 
AJ VY $ 
向 —00 RA 向 最 近 的 数 舍 人 a 
。 实 际 什 g 


@ 表示 连续 浮 点 数 的 点 
图 2-11 ANLA 


具体 实现 时 ， 浮 点 数 使 用 3 个 专用 位 辅助 完成 舍 和 过程。 一 个 m 位 的 尾数 可 表示 为 
L.mym,...m,,GRS, XE G 为 保护 位 (guard bit)， 用 于 暂时 提高 浮 点 数 的 精度 ; RIEAN 
(rounding bit); 用 于 辅助 完成 舍 入 ，5 为 粘 位 (sticky bit)。 炸 位 是 位 右 侧 的 所 有 位 进行 逻 
辑 与 运算 后 的 结果 ， 之 所 以 这 样 称 呼 是 因为 一 旦 该 位 被 置 位 (表明 右边 有 一 个 或 多 个 位 为 1 ) 
它 就 将 保持 为 1。 舍 人 算法 根据 以 上 3 位 确定 舍 入 位 的 值 。 


2.8 浮 点 运算 和 程序 员 

整数 操作 是 精确 、 可 重复 的 。 例 如 ， 在 所 有 计算 机 上 计算 整数 乘积 x y 都 会 得 到 同样 
的 结果 。 一 人 台 计 算 机 上 浮 点 单元 的 精度 可 能 与 男 一 个 台 上 的 不 同 ， 尽管 IEEE 浮 点 标准 的 引 
入 已 经 大 大 改善 了 这 一 情况 。 

不 能 总 是 向 用 户 隐藏 浮 点 运算 的 细节 〈 即 浮 点 数 精度 以 及 表达 式 的 计算 方式 )， 因 为 用 
户 必须 了 解 这 些 。 通 常 ， 用 户 有 关 浮 点 的 一 些 考 虑 仅 会 影响 那些 高 度 专用 的 数字 应 用 ; 没有 
几 个 程序 员 为 正在 飞 向 火星 的 飞船 精确 地 修正 过 路 线 。 另 一 方面 ， 有 些 情 况 下 ， 问 题 本 身 会 
放大 浮 点 误差 的 影响 。 例 如 ， 当 所 有 卫星 几乎 都 在 线 时 ， 用 GPS 定位 会 出 现 因 源 数据 的 微 
小 误差 引起 计算 结果 巨大 错误 的 情况 。 

请 考虑 表达 式 z = x 一 卢 ， 它 计算 两 个 数 的 平方 差 .这 里 x,y 和 z 都 是 实数 。 可 以 将 该 
表达 式 视 作 必 -y R (xy) (x-y) 计算 。 无 论 采 用 哪个 表达 式 ， 整 数 运算 都 会 得 到 同样 的 结 
R, 但 浮 点 运算 却 可 能 得 到 不 同 的 值 。 

浮 点 运算 是 怎样 进行 的 和 这 个 问题 有 什么 关系 ? 首先 请 考虑 x -yo WR x 和 yy 的 值 差 
别 很 大 ， 且 人 >1，)<<1， 那 么 相应 地 六 与 六 的 差 也 会 很 大 。 因 此 ， 减 法 妇 -六 可 能 产生 
误差 ， 因 为 蕊 的 值 很 大 而 六 的 值 很 小 。 为 了 完成 减法 ， 应 将 刀 的 指数 变 大 ， 使 其 与 妇 的 指 
数 相同 。y7 的 尾数 应 右 移 ， 这 会 丢失 一 部 分 精度 。 

下 面 请 考虑 (x+y)(x-y)。 这 里 ， 计 算 (x-y) 的 误差 会 小 很 多 ， 最 终 的 结果 也 精确 得 多 。 
下 面 的 8 位 十 进 制 运算 证 明了 这 一 点 。 

x = 5.9995998 X 10° and y = 1.0002010 x 10°! 
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x =( 5,9995998 x 10° ) ? 
= 35.99519776016004 x 10° 
= 3.5995198 X 10° ($A 3| 8 位 数字 ) 
y =( 1.0002010 x 10` ) ? 
= 1.000402040401 x 107 
= 1.0004020 x 10” (#A 2] 8 位 数字 ) 
在 进行 加 法 之 前 ， 应 使 小 的 那个 数 的 指数 增 大 ， 使 其 与 大 的 那个 数 的 相同 。 为 将 六 的 
指数 加 7， 即 将 它 的 尾数 右 移 7 位 。 现 在 就 可 以 进行 减法 了 。 
3.5995198 x 10° 
—0.00000010004020 x 10° 
3.59951969995980 
将 结果 舍 人 到 8 位 数字 之 后 ， 可 得 3.5995197 x 10;。 下 面 按 (x+y)(x-y) 形式 进行 计算 。 
计算 (xty) 和 (xy) 之 前 ， 先 要 将 两 个 数 的 指数 对 齐 


5.9995998 x 10° 5.9995998 x 10° 
+ 0.0010002010 x 10° —0.0010002010 x 10° 
6.0006000010 5.9985995990 


将 结果 舍 人 到 8 位 数字 之 后 ， 两 个 算式 的 结果 分 别 为 6.0006000 x 10° 和 5.9985996 x 
10"。 这 两 个 数 的 积 为 3.599519675976 x 10° 或 3.5885197 x 10° (GAB 8 位 数字 后 )。 正 如 
所 看 到 的 那样 ， 这 两 个 结果 并 不 相同 ， 而 其 原因 仅仅 是 因为 我 们 使 用 了 不 同 计算 方式 。 

舍 人 误差 对 计算 的 影响 会 对 编译 技术 产生 很 重要 的 影响 。 例 如 ， 我 们 熟悉 的 加 法 结合 外 
就 不 再 成 立 了 ，( a+b) +e AEF at ( b+c)。 如 果 将 表达 式 重 新 排序 ， 在 同样 的 机 器 上 ， 使 
用 同样 的 数据 ， 完 成 同样 的 计算 ， 不 同 的 编译 器 会 产生 不 同 的 结果 。 

当 进 行 混合 精 度 ( 即 单 精度 和 双 精 度 ) 计算 时 也 会 出 现 类 似 的 问题 。 假 设 要 计算 表达 式 
xX" ytz， 这 里 XxX 和 y 是 单 精度 值 ， 而 z 为 双 精 度 。 将 z 转换 为 单 精度 格式 后 ,操作 以 单 精度 
形式 进行 。 不 过 ， 操 作 也 可 以 双 精 度 形式 进行 ， 但 计算 前 要 将 x 和 转换 为 双 精 度 形式 ， 最 
后 还 要 将 结果 转换 回 单 精度 形式 。 输 入 误差 可 能 使 这 两 种 方式 的 计算 结果 不 同 。 

IEEE 标准 要 求 加 、 减 、 乘 和 除 的 运算 结果 能 够 精确 计算 ， 并 用 向 偶数 舍 人 的 方法 将 结 
果 舍 人 为 最 近 的 浮 点 数 。 


2.8.1 浮 点 运算 中 的 误差 传播 

本 节 继 续 讨 论 浮 点 计算 中 的 误差 ,现在 来 看 看 执行 浮 点 计算 链 时 会 发 生 什 么 。 舍 和信 造成 
的 生成 误差 ( generated error) 或 通过 计算 链 传 播 的 传播 误差 ( propagated error) 都 会 被 引入 
浮 点 运算 。 下 面 首先 来 看 看 传播 误差 。 若 Z 是 了 的 函数 ， 若 了 的 误差 为 e,， 那么 Z 的 误差 
是 多 少 ? 请 考虑 加 法 操作 2Z= 针 + 了 

假设 X' 是 计算 机 使 用 的 关 值 ， 它 被 定义 为 和 HR,， 这 里 站 为 真正 的 值 而 R, 为 舍 人 带 来 
的 误差 。 类 似 的 ,假定 站 = Y+ R,。XX 和 了 的 相对 误差 ( relative error) 分 别 被 定义 为 R./X 
和 R,/ Ys 

当 程 序 员 进 行 操作 XY 时 ， 计 算 机 要 完成 的 是 和 了 YHR,+R,。 这 个 表达 式 表 明 ， 加 法 运 
算 中 舍 人 误差 将 会 被 累积 。 和 的 相对 误差 为 ( R.+R,) / (X+7)。 如 果 X 和 了 近似 相等 ， 相 对 
误差 就 是 R./X。 


乘积 所 .了 将 得 到 (X+R,) + (Y+R,) = X + YHX RAY RAR, > Ro BIERZ R, A R, íR 
小 ， 因 此 R, + R, TAREA EARMA X R, +Y- R,。 乘 积 的 相对 误差 为 ( 开 . R, + 
Y- R)/X- Y, BUR,/Y+R/X. 若 世 和 了 近似 相等 ， 则 相对 误 差 为 2 . R/ Xs 注意 乘 法 的 
相对 误差 比 加 法 大 。 

多 项 式 fx) = ao + ax + apx? + aax 的 传播 误差 近似 为 1 (x)R,， 这 里 f(x) 是 多 项 式 ftx) 
的 一 阶 微分 。 

借助 多 项 式 的 泰勒 级 数 (Taylor series)， 可 以 将 多 项 式 ftx) 展开 为 fx) = fl) +f Ox 一 
Xo) + f (Xo =- xzo)72 + e EO R =x 一 xo 并 假设 R, 所 有 大 于 1 RABAT A, WU fx) = 
Rex) +f ORo KIE, MERRE ftx) 一 flxo) =/mCw0)R.。 请 考虑 计算 函数 2x + 4x +3x+2 (x= 
2) 时 的 误差 。 这 个 多 项 式 的 导数 为 OC + 8x + 3， 当 x = 2 时 的 计算 误差 约 为 (24+16+3) 
R, = 43R,. 

两 个 几乎 相等 的 数 相 减 会 引起 有 效 位 误差 ( Significance error)。 请 考虑 z =x 一 y， 这 里 
x = 1.234567 H. y = 1.234521。 每 个 操作 数 都 有 7 个 有 效 位 ， 但 结果 x — y= 0.000046 却 只 有 
两 个 有 效 位 。 假 设 z 会 被 用 于 接 下 来 的 计算 中 ， 如 p = qz， 即 用 只 有 两 位 有 效 数 字 的 操作 数 
完成 7 位 有 效 数字 的 运算 。 程 序 员 在 用 计算 机 进行 浮 点 操作 数 必 须 非常 小 心 。 


2.8.2 ”生成 数学 函数 


一 些 金融 计算 和 绝 大 多 数 科学 与 工程 计算 都 会 需要 比 简单 的 加 、 减 、 乘 、 除 更 复杂 的 操 
作 ， 如 平方 根 、 三 角 函 数 sin(x) Fil cos(x), AX HH PAB cosh) 等 。 没 有 必要 使 用 专用 硬件 直 
接 计算 这 些 函 数 。 本 节 将 介绍 如 何 使 用 基本 运算 实现 这 些 高 级 函数 。 一 些 浮 点 单元 确实 通过 
基本 的 算术 操作 为 部 分 科学 计算 孔 数 提供 硬件 支持 。 

尽管 本 书 并 不 是 一 本 数学 书 ， 但 还 是 会 介绍 科学 函数 是 怎样 生成 的 一 一 部 分 是 为 了 完 
性 ， 部 分 是 因为 其 对 计算 机 设计 、 算 术 单 元 和 指令 集 的 影响 。 任 何 sin(x) 或 Vx 那样 的 连续 
函数 都 可 以 被 表示 为 关于 参考 点 x 的 多 项 式 展 开 

AX) = flo) +S OC = Ho) +S oO) = x0) /21 +f OO) —x0) 31 + ++ 

Sf (Xo) EX H PB flr) FE Xo KE AY n BE BES fy 的 表达 式 是 泰勒 级 数 ， 为 了 计 
算 刀 ， 需 要 将 无 穷 多 个 项 加 在 一 起 。 但 实践 中 ， 满 足 j 精度 要 求 的 项 数 可 能 很 小 。ftx) = 
sin(x) 的 泰勒 级 数 为 x 一 x 3/3! +x/51 一 x /7! 十 …。 

将 泰勒 级 数 的 前 n 项 相 加 就 可 以 得 到 sin(x) 的 值 。n 的 值 取 决 于 后 面 的 项 以 多 快 的 速度 
收敛 为 0。 有 时 级 数 收敛 得 很 快 ， 仅 需要 4 或 5 项 。 有 时 收敛 速度 很 慢 ， 由 于 完成 计算 所 需 
的 时 间 过 长 而 不 会 使 用 泰勒 级 数 。 

有 时 提供 科学 函数 的 算术 单元 会 将 生成 某 个 特定 函数 所 需 的 系数 存放 在 只 读 存储 器 中 的 
一 张 查找 表 (lookup table) 中 ， 以 避免 每 次 也 数 生成 时 都 计算 系数 。 例 如 ， 用 泰勒 级 数 计算 
sin(x) 的 算术 单元 会 将 系数 1/3!，1/5!， 等 等 ， 保 存在 查找 表 中 。 

实践 中 ， 对 于 一 定 范围 内 的 x 值 (如 计算 正弦 函数 时 x 的 值 域 为 0 ~ 7/2)， 由 泰勒 级 
数 得 到 的 系数 并 不 总 能 确保 tx) 的 精度 最 高 。 算 术 单 元 会 使 用 那些 对 于 给 定 的 x 值 域 能 够 得 
到 更 高 计算 精度 的 系数 。 随 着 变量 的 值 接近 边界 ， 一 些 系 数 的 表现 将 会 变 坏 。 例 如 ， 一 个 生 
AL PAA fix) (0 <x <1) 的 系数 可 能 在 x 接近 1 时 的 盘 近 效果 变 得 很 差 。 一 些 系 数 ， 例 如 切 
比 雪夫 级 数 (Chebyshev series)， 比 泰勒 系数 的 效果 更 好 ， 误 差 在 x 的 值 域 上 分 布 得 更 加 均 
Sj 与 泰勒 级 数 不 同 ,， 切 比 雪夫 级 数 在 变量 值 域 的 边界 处 的 误差 不 会 很 大 。 而 且 ， 切 比 雪 夫 
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级 数 的 收敛 速度 比 泰勒 级 数 更 快 ， 计 算 近 似 值 所 需 的 项 数 也 更 少 一 些 。 
函数 ftx) 的 切 比 雪夫 级 数 定义 为 一 系列 切 比 雪夫 多 项 式 之 和 : 
Ax) = 1/2C, + C,T,(x) + C,T,(x) + C,T,(x) e for-1 <x <1 
Cy, Ci, GEKA Ax) 的 切 比 雪夫 系数 ，Ti(x)，T(x) 是 切 比 雪夫 多 项 式 (Chebyshev 
polynomials); T œ) 的 值 被 定义 为 cos(n* acos(x))， 前 几 项 切 比 雪夫 多 项 式 为 : 
T(x)=1 
T\(x) =x 
T,(x) = 2x°-1 
T,(x) = 4x°-3x 
T,(x) = 8x*-8x7+1 
T(x) = 16x°—20x +5x 
函数 ftx) 可 以 被 表示 为 
1/2C;+C,x + C,(2x°-1) + C,(4x°-3x) + C,(8x*-8x7+ 1)+C,(16x°-20x°+5x) + ++ 
AAR 6 个 切 比 雪夫 多 项 式 ， 该 等 式 可 写 为 下 面 的 形式 
fir)=aotaxtayx tayx tasx tasx’ 
这 里 ， 
a = 1/2C,-C,+C, 
a, = C,-3C;+5C, 
a, =2C,-8C, 
a, = 4C,—20C, 
a,= 8C, 
a; = 16C; 
对 于 任何 需要 计算 的 函数 ， 如 sin(x)， 其 系数 me，a，… 的 值 可 被 保存 在 计算 机 浮 点 单 
元 的 只 读 存 储 器 中 。 
本 市 的 目的 是 阐明 这 些 复杂 的 数学 函数 的 来 源 ， 以 及 如 何 通过 一 组 项 求 和 来 生成 这 些 函 
数 ， 直 到 获得 所 要 求 的 精度 。 
用 函数 生成 新 的 函数 
没有 必要 使 用 级 数 或 迭代 技术 生成 科学 函数 。 很 多 函数 可 以 直接 由 其 他 函数 得 到 。 例 
如 ,，e “可 由 e = —sinh(x) + cosh(x) 计算 得 到 。sinh(x) 和 cosh(x) 这 两 个 双 曲 函数 都 可 由 浮 
点 单元 生成 (使 用 合适 的 级 数 )。 同 样 ， 我 们 可 以 通过 log.(x) = 2tanh '(x—-1)/(x+1) 计算 自然 
对 数 。 
前 面 已 经 说 明 ， 计 算 机 可 以 通过 各 种 方式 间接 地 生成 从 金融 到 科学 等 各 种 计算 中 用 到 的 
数学 函数 。 对 程序 员 来 说 ， 重 要 的 是 实现 计算 的 方法 会 影响 最 终 答案 。 但 对 设计 者 来 说 ,， 重 
要 的 是 他 们 有 机 会 设计 出 能 够 提高 复杂 数字 函数 计算 速度 的 算术 单元 。 


迭代 技术 
另 一 种 生成 数学 函数 的 方法 是 迭代 技术 。 和 迭代 技术 使 用 函数 的 近似 值 放 ， 生 成 一 
| 个 较 好 的 值 yit1。 再 用 这 个 较 好 的 值 生成 一 个 更 好 的 值 ， 依 此 类 推 。 牛 顿 - 拉 夫 麻 
(Newton-Raphson) 公式 说 明了 这 一 过 程 ， 
YV: SJO OY) 
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Py AHWR, ya APH, fABKMS ABKA y RH—-MFR 
或 微分 。 下 图 描述 了 这 一 等 式 。 


Jo) 


KA 
© Cengage Learning 2014 





Jas =y ‘hy, — xly;) 

这 里 )》 表 示 x 平 方 根 的 第 i 个 估计 值 ，yi,l 是 下 一 个 也 是 更 好 的 一 个 估计 值 。 若 我 们 
想 生 成 2 的 平方 根 ( 即 x= V2 )。 和 假设 初 值 y,=1。 前 3 KERER TF 

y=p — 1/20- x/y9) = 1 — 1/2(1 - 2/1) =1 — 1/2(-1) = 1.5 

Vo =y — 1/2; — x/y,) = 1.5 — 1/2(1.5 — 2/1.5) = 1.5 — 1/2(0.1666667) = 1.4166667 

Yz =Y — 1/2(y, — x/y,) = 1.4166667 — 1/2(1.4166667 — 2/1.4166667) = 1.41421569 

仅仅 经 过 3 次 迭代 ， 结 果 就 已 经 很 接近 真实 值 V2 =1.41421356 T. AH, AMT 
以 迭代 地 使 用 表达 式 世 ii = (2 一 Xx y 计算 数 和 的 倒数 。 倒 数 的 计算 十 分 重要 ， 因 为 可 

| 用 它 来 完成 除法 ， 因 为 4/B =4 1/B。 


~~ 


Yim 
请 考虑 计算 x 的 平方 根 的 牛顿 一 拉夫 森 公 式 : 
| 


本 章 小 结 


计算 机 使 用 两 个 状态 的 二 进 制 系统 表示 信息 ， 因 为 这 是 最 划算 的 信息 表示 方法 。 读 者 
已 经 看 到 了 如 何 将 数字 表示 为 有 符号 和 无 符号 整数 。 现 代 计 算 机 总 是 使 用 二 进 制 补 码 表示 
有 符号 整数 ， 因 为 当 一 个 (或 两 个 ) 数 为 负数 时 ,减法 可 以 通过 两 个 二 进 制 补 码 数 的 加 法 
完成 。 

读者 还 看 到 了 科学 计算 (例如 图 形 学 中 的 图 着 色 ) 中 浮 点 数 的 表示 方法 。 因 为 浮 点 数 并 
不 能 准确 地 表示 实数 ， 本 章 还 讨论 了 浮 点 数 的 误差 以 及 它们 所 带 来 的 后 果 。 本 章 简要 讨论 了 
计算 机 实现 复杂 数学 函数 (如 cos 和 tag) 的 方法 ， 解 释 了 有 很 多 方法 可 以 完成 这 些 操 作 ， 且 
需要 在 开销 、 速 度 和 精度 之 间 折 中 。 


习题 

2.1 为 什么 数字 计算 机 会 使 用 二 进 制 算术 ? 

2.2 我 们 说 二 进 制 值 没有 固有 的 含义 (所 有 其 他 数据 表示 也 是 如 此 )。 宇 宙 飞 船 旅行 者 1 号 中 带 有 大 量 
音乐 和 其 他 信息 样本 ， 是 第 一 稻 离 开 太 阳 系 前 往 其 他 星系 的 人 造 飞船 。 如 果 数 据 没有 固有 含义 ， 
为 什么 可 以 用 二 进 制 信息 进行 通信 ? 

2.3 与 十 进 制 整数 运算 相 比 ， 二 进 制 整数 运算 有 哪些 不 精确 的 地 方 ? 能 否 提 高 二 进 制 计算 机 的 准确 度 ， 
使 其 与 十 进 制 计算 机 同样 精确 ? 

2.4 a. 为 什么 计算 机 是 面向 字 节 的 ? 

b. 要 获得 0.001% 的 计算 精度 ， 需 要 多 少 位 数据 ? 
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2.5 与 以 下 数 (假设 它们 是 位 置 记 数 法 的 无 符号 整数 ) 相等 的 十 进 制 数 是 什么 ? 
a. 10110111, b. 10110111, c. 101101114 d. 10110111 

2.6 为 什么 要 使 用 八进制 和 十 六 进 制 运算 ? 

2.7 将 下 面 的 十 进 制 数 转换 为 (a) 二 进 制 (b) 十 六 进 制 。 


a. 36 b. 360 c. 3600 d. 36666 
2.8 将 下 面 的 无 符号 二 进 制 数 转换 为 十 进 制 。 
a. 11 b. 1110 c. 11011 d. 11100110 
2.9 将 下 面 的 十 六 进 制 数 转换 为 十 进 制 
a. FC b. DIC c. 57B21 d. CCDDEE 
2.10 将 下 面 的 十 六 进 制 数 转换 为 二 进 制 。 
a. BF b. 941D c. 6FC01 d. DF0172 
2.11 将 下 面 的 十 进 制 小 数 转 换 为 16 位 无 符号 二 进 制 数 。 采 用 8 位 精度 。 
a. 0.6 b. 0.700164 c. 0.2331 d. 0.0876 
2.12 按照 要 求 的 基数 完成 下 面 的 算式 。 
a. 00110111， b. 00111111, 
+11110101， +10111011, 
c. 00120121, d. O0ABCDIF,, 
+179DC06E,, +2760FD01, 


2.13 什么 是 算术 溢出 ? 它 是 怎样 发 生 的 ?如 何 检测 ? 

2.14 一 个 n 位 二 进 制 补 码 整 数 N 可 被 记 作 wa >…aiaos。 请 用 二 进 制 补 码 表示 证 明 ， 对 于 一 个 上 位 有 
守 号 二 进 制 数 ， 由 其 符号 位 和 其 本 身 可 以 将 它 表示 为 n+l 位 有 符号 二 进 制 数 。 例 如 ， 若 n= -12， 
用 5 位 二 进 制 数 表 示 为 10100， 用 6 位 二 进 制 表 示 为 110100。 

2.15 a. 将 1234.125 转换 为 32 位 IEEE 754 浮 点 格式 。 
b. 32 位 IEEE 浮 点 数 CC4C0000 对 应 的 十 进 制 数 是 什么 ? 

2.16 二 进 制 补 码 数 上 洲 与 浮 点 数 上 洲 之 间 的 区 别 是 什么 ? 

2.17 在 负 二 进 制 系统 中 ,一 个 i 位 二 进 制 数 入 用 位 置 记 数 法 表示 为 : 

N=ayX—1°X2"+a,X-1'X2' ++ ta X] X22 

这 与 传统 的 8421 二 进 制 加 权 自 然 数 相同 ， 除 了 额外 的 权 值 +1 与 -1 不 同 。 例如，1101 = 
(-1x1x8)+(+1x1x4)+(-1x0x2)+HxlxD=-8+4+1=-3。 下 面 的 4 位 二 进 制 数 被 表示 
为 负 二 进 制 形 式 。 请 将 其 转换 为 十 进 制 。 


a. 0000 b. 0101 c. 1010 d. 1111 
2.18 完成 以 下 4 位 负 二 进 制 数 的 加 法 运算 。 结 果 为 6 位 负 二 进 制 数 。 
a. 1101 b. 1111 c. 1010 d. 0000 
+1011 +111] +0101 +0001 


2.19 HEFT EMME IMAZEN, AAA ERRAR, aAA BA 4 BI — 
正 数 结果 ， 会 产生 算术 溢出 。 即 如 果 操 作 数 4 A B 的 符号 位 相同 ， 但 与 结果 的 符号 位 不 同 ， 则 发 
生 了 算术 溢出 。 如 果 a, 为 4 的 符号 位 ，b,_, 为 B8 的 符号 位 ，5, 为 4 与 8 之 和 的 符号 位 ,那么 
溢出 可 被 定义 为 


yy br * Sy 


请 证 明 该 表达 式 是 正确 的 。 
2.20 a. 截断 误差 与 含 入 误差 有 何不 同 ? 
b. 什么 是 NaN 数 ? 它 对 浮 点 运算 有 怎样 的 重要 性 ? 
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c. 基数 为 13 的 最 大 三 位 数 是 多 少 ? 

2.21 计算 机 中 有 很 多 方法 表示 正 数 和 负数 。 请 列 出 一 些 表示 有 符号 数 的 方法 。 你 还 能 否 想 出 其 他 一 些 
表示 有 符号 数 的 方法 ? 

2.22 请 写 下 最 大 的 位 基 5 正 整 数 和 m 位 的 最 大 基 7 数 。 要 将 n 位 基 5 数 表示 为 7 进 制 。 要 表示 所 有 
的 n 位 基 5 数 ， 所 需 m 位 基 7 数 的 最 小 位 数 m 是 多 少 ? 提示 : 最 大 m 位 基 7 数 应 该 大 于 或 等 于 
最 大 的 nn 位 基 5 数 。 

2.23 请 计算 x 一 上 ,这 里 x = 12.1234, y = 12.1111。 若 要 进行 6 位 有 效 数字 (十 进 制 ) 的 算术 运算 ， 
使 用 表达 式 x -y BK (Ox + p(x 一) 是否 有 必要 ? 

2.24 计算 函数 ++ 邓 +10x +8,，x=2。 如 果 x 的 误差 为 R,， 那 么 计算 误差 是 多 少 ? 

2.25 以 下 ASCI 码 字符 串 的 含义 什么 ?每 个 字符 用 十 六 进 制 表示 。 

43, 6F, 6D, 70, 75, 74, 65, 72, 2E 

2.26 为 什么 浮 点 运算 很 少 被 用 于 金融 计算 ? 

2.27 对 于 下 面 的 ， 请 指出 它们 的 基数 p, q,r, s, t, u 分 别 是 多 少 ? 
a. 100001, = 33; b. 25,= 13» C= 
.25 e. 1010, = 68,5 ~ £,1001,= 126;, 

2.28 现代 计算 机 会 使 用 无 符号 整数 运算 、 浮 点 运算 、 二 进 制 补 码 运 算 和 浮 点 运算 。 
a. 能 否 从 一 个 二 进 制 数 看 出 表示 它 的 数值 系统 ? 
b. 为 什么 有 这 么 多 表示 数值 的 方法 ? 
c. 我 们 是 否 需 要 所 有 这 些 机 制 ? 

2.29 一 个 数字 逻辑 元 件 用 2.8 ~ 2.95V 电压 间 的 输出 表示 高 状态 。 相 同 的 逻辑 元 件 在 2.1 一 3.0V 电压 
范围 内 的 输入 为 高 状态 。 为 什么 会 有 这 样 的 不 同 ? 它 有 何 实践 意义 ? 

2.30 请 给 出 图 P2.30 中 电路 的 中 间 值 和 输出 值 的 真 值 表 。 


A 


Om 
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| 第 二 部 分 


Computer Organization and Architecture: Themes and Variations 


指令 集体 系 结构 





第 一 部 分 介绍 了 计算 机 ， 也 涵盖 了 介绍 中 央 处 理 器 所 需 的 背景 知识 。 第 二 部 分 包括 第 
3、4、5 章 ， 从 程序 员 的 角度 来 看 计算 机 ， 而 不 再 聚焦 于 计算 机 的 内 部 组 成 。 我 们 将 在 机 器 
级 ， 也 就 是 本 地 指令 的 层次 上 ， 来 考察 计算 机 的 运行 。 在 第 二 部 分 ， 我 们 感 兴趣 的 是 计算 机 
能 做 什么 ， 而 不 是 计算 机 如 何 去 做 。 

第 二 部 分 从 介绍 存储 程序 计算 机 的 体系 结构 以 及 它 的 指令 集 开 始 。 我 们 将 展示 从 存储 器 
读 出 指令 到 执行 指令 的 过 程 中 ， 信 息 是 如 何在 计算 机 的 各 个 部 件 之 间 流 动 的 。 为 了 更 好 地 解 
释 计 算 机 能 做 什么 ， 本 教材 将 使 用 两 种 计算 机 ， 一 种 是 现成 的 真实 计算 机 ， 另 一 种 则 是 虚构 
的 教学 计算 机 。 其 实 计 算 机 反映 出 生活 中 的 一 些 复杂 性 、 不 规则 性 以 及 不 一 致 性 ， 可 能 会 带 
给 读者 一 条 陡峭 的 学 习 曲 线 。 理 想 化 的 教学 计算 机 很 完美 、 很 规则 、 不 复杂 ， 也 没有 任何 瑕 
疫 一 一 但 是 它 是 人 为 的 ， 无 法 表现 计算 机 设计 者 被 迫 做 出 的 妥协 与 折 中 。 本 教材 选用 的 实际 
计算 机 是 ARM. 

ARM 处 理 器 由 ARM 股份 有 限 公 司 设 计 ， 广 泛 应 用 于 许 入 式 系统 ， 比 如 蜂窝 电话 、 
MP3 播放 器 。ARM 为 计算 机 体系 结构 教学 提供 了 非常 优秀 的 平台 ， 因 为 它 简 单 、 容 易 理解 ， 
而 且 集 成 了 强大 的 功能 。 实 际 上 ， 我 坚持 认为 ARM 处 理 器 拥有 一 个 非常 优雅 简洁 的 体系 结 
构 。ARM 也 是 一 个 理想 的 教学 平台 ， 因 为 ARM 处 理 器 在 市 场 销售 上 做 得 非常 好 ， 得 到 了 
广泛 的 应 用 。 

处 理 器 体系 结构 之 间 存 在 着 一 定 差 异 。 有 时 这 种 差异 很 小 (例如 同一 系列 不 同 成 员 的 
体系 结构 差异 就 相对 较 小 ， 比 如 Core i5 和 Core i7); 有 时 这 种 差异 就 比较 大 (例如 MIPS 
与 SPARC 这 两 种 RISC 处 理 器 之 间 的 差异 就 比较 大 ) ; 有 时 这 种 差异 会 非常 显著 ,例如 Itel 
Core i 5 ARM 之 间 的 差异 就 非常 大 ， 因 为 Core i7 是 典型 的 CISC 体系 结构 ， 而 ARM 则 





78 BRD HARRAH 


是 RISC RAH © 

分 析 不 同 处 理 器 之 间 的 差异 会 使 读者 更 容易 理解 计算 机 。 例 如 ， 在 介绍 ARM 寄存 器 时 
也 谈 到 它 与 Intel IA32 或 Freescale 68K 系列 (已 经 改名 为 ColdFire) 之 间 的 差异 。 这 种 方法 
实践 效果 不 好 ， 读 者 很 容易 就 迷失 在 各 种 细节 之 中 。 第 3 章 主要 介绍 ARM 处 理 器 ， 而 第 4 
章 主要 谈 一 谈 不 同 处 理 器 之 间 的 差异 。 

之 前 只 是 通过 定义 指令 集 来 介绍 计算 机 体系 结构 ， 这 有 点 儿 像 仅 学 习 了 一 些 空气 动力 学 
理论 就 去 学 开 飞机 ， 然 后 就 疏 进 飞机 舱 里 开始 单 飞 。 有 关 体 系 结构 的 课程 通常 还 包括 学 习 计 
算 机 汇编 语言 的 实验 部 分 ， 所 以 本 教材 也 含有 编写 ARM 程序 并 在 PC 机 上 模拟 运行 的 内 容 ， 
以 便 读 者 能 理解 ARM 指令 集结 构 。 为 了 更 好 地 理解 计算 机 能 做 什么 ， 本 书 还 关注 使 用 汇编 
语言 去 编写 实际 的 程序 。 本 书 的 目的 不 是 去 培养 汇编 语言 编程 专家 ， 而 是 展示 微 处 理 器 体 
系 结构 是 如 何 支持 高 级 语言 的 ， 以 及 如 何 使 用 体系 结构 资源 的 。 通 过 理解 汇编 语言 指令 的 结 
构 ， 读 者 就 可 以 更 好 地 理解 工程 师 和 设计 师 在 设计 实际 指令 集 时 必须 要 做 的 权衡 和 折 中 。 

第 4 章 有 两 个 目标 。 第 一 个 目标 就 是 介绍 栈 (stack)， 栈 在 函数 设计 、 局 部 变量 管理 、 
参数 传递 中 起 到 了 非常 重要 的 作用 。 本 章 介绍 了 微 处 理 器 的 指令 集 是 如 何在 编程 环境 中 支 
持 栈 、 指 针 、 参 数 传递 ， 以 及 为 局 部 变量 分 配 空间 的 ; 但 是 ， 由 于 ARM 体系 结构 并 没有 完 
全 实现 在 一 些 CISC 处 理 器 中 实现 了 的 全 部 栈 处 理 机 制 ， 本 章 还 介绍 了 其 他 处 理 器 及 其 栈 处 
理 方法 。 第 4 章 更 深入 地 分 析 了 机 器 指令 ， 并 介绍 了 一 些 ARM 和 其 他 处 理 器 提供 的 有 趣 
操作 。 

第 二 部 分 的 最 后 一 章 ， 也 就 是 第 5 章 ， 专门 讨论 了 体系 结构 对 多 媒体 的 支持 ， 多 媒体 主 
要 是 指 对 声音 和 图 像 的 处 理 与 操作 。 第 5 章 首先 介绍 了 几 个 来 自 多 媒体 领域 的 例子 ， 比 如 图 
形 处 理 和 图 像 压 缩 ， 以 便 使 读者 了 解 现代 处 理 器 所 必需 完成 的 操作 类 型 。 多 媒体 应 用 以 不 可 
想象 的 方式 极 大 地 促进 了 今天 计算 机 的 发 展 。 例 如 ， 一 段 视频 中 所 包含 的 信息 量 超过 了 一 台 
IBM System/360 计算 机 在 其 整个 生命 周期 (Pp 20 世纪 60 年 代 中 期 到 20 世纪 70 年 代 ) 内 所 
处 理 的 信息 量 。 本 章 最 后 将 介绍 多 媒体 的 实践 特征 并 分 析 专 用 指令 集 ， 比 如 ，Intel 的 短 向 量 
SIMD 指令 是 如 何 有 效 处 理 声音 和 视频 信号 的 。 


O 目前 还 没有 介绍 术语 CISC 和 RISC。 为 了 当前 需要 ， 可 以 认为 RISC 体系 结构 的 指令 集 规 整 且 指令 长 度 固 
定 ， 唯 一 能 够 访问 内 存单 元 的 操作 是 载 人 (load) 寄存 器 和 存储 (store) 寄存 器 。CISC 体系 结构 指令 集 不 
规整 且 指 令 长 度 可 变 ， 人 允许 诸如 把 内 存单 元 P 的 内 容 与 寄存 器 Q 的 值 相 加 ， 然 后 再 把 结果 存储 到 内 存单 元 
P 中 等 指令 访问 存储 器 。RISC 处 理 器 的 典型 实例 有 ARM、MIPS、SPARC 等 ， 而 CISC 处 理 器 的 实例 则 有 
Pentium 系列 以 及 Freescale 68K 系列 。 
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Computer Organization and Architecture: Themes and Variations 


体系 结构 与 组 成 





“一 切 应 该 尽 可 能 简单 ， 但 也 不 能 过 于 简单 。 


一 一 爱 因 斯 坦 
“未 来 计算 机 不 会 重 于 1.5 吨 。” 
“任何 人 都 可 以 建立 一 个 快速 CPU, 诀窍 是 建立 一 个 快速 系统 ,” 

一 一 西 摩 . 克 雷 


计算 机 的 指令 集体 系 结构 (ISA) 从 汇编 语言 程序 员 的 角度 描述 了 计算 机 ， 并 强调 了 计 
算 机 的 功能 ， 而 不 是 它 的 内 部 组 成 或 实现 。ISA 说 明了 计算 机 能 做 什么 ， 而 计算 机 组 成 则 说 
明了 它 是 如 何 做 的 。 在 后 面 的 章节 里 ， 我 们 将 介绍 处 理 器 的 组 成 ， 并 说 明 一 个 给 定 的 ISA 
是 如 何 实现 的 。 本 章 的 学 习 目标 如 下 : 
分 析 存 储 程序 计算 机 并 演示 指令 如 何 执行 。 
介绍 存储 器 - 存储器、 寄存 器 一 存储 器 、 寄 存 器 -寄存 器 等 操作 的 指令 格式 。 
说 明 处 理 器 如 何 根据 测试 结果 从 两 个 可 选 动作 中 选择 一 个 ， 来 实现 条 件 行为 的 。 
描述 了 计算 机 指令 集 ， 并 展示 了 计算 机 是 如 何 存 取 数 据 ( 寻 址 模式 ) 的 。 
介绍 了 ARM 的 开发 系统 ， 并 展示 了 如 何 编写 ARM 程序 。 
说 明 ARM 如 何 使 用 条 件 执行 来 编写 高 效 代码 的 。 

因为 真实 的 ISA 有 一 条 陡峭 的 学 习 曲 线 ， 因 此 本 章 从 一 个 一 般 的 计算 机 体系 结构 开始 ， 
它 带 有 实际 计算 机 的 基本 特性 ， 但 又 没有 那么 复杂 。 而 且 ， 这 里 所 用 的 计算 机 结构 基于 寄存 
器 、 总 线 和 ALU 模型 ， 非 常 适合 描述 指令 执行 。 之 后 ， 将 介绍 另外 一 种 描述 计算 机 结构 的 
方式 ， 它 非常 适合 解释 流水 线 一 一 一 种 所 有 现代 处 理 器 都 使 用 了 的 技术 。 第 6 章 将 详细 介 
绍 流水 线 。 


3.1 存储 程序 计算 机 


ARM 这 一 类 处 理 器 采用 了 存储 程序 体系 结构 ， 它 将 程序 和 数据 放 在 同一 个 存储 空间 内 ， 
采用 取 指 =- 执行 模式 执行 ， 即 按照 顺序 从 内 存 读 取 指令 、 译 码 、 执 行 。 这 样 一 台 计 算 机 带 有 
寄存 器 、 算 逻 运 算 单 元 ( ALU)、 存 储 器 以 及 用 来 连接 各 个 功能 部 件 的 总 线 。 读 者 可 能 奇怪 
程序 是 如 何 被 加 载 到 内 存 中 的 。 实 际 上 ， 程 序 或 者 被 保存 在 只 读 存储 器 (将 在 《计算 机 存储 
与 外 设 》 第 2 章 介绍 ) 中 ,或 者 由 操作 系统 从 硬盘 加 载 到 内 存 中 。 

等 存 器 是 位 于 CPU 内 部 的 存储 单元 ， 类 似 于 内 存 中 的 存储 单元 。 有 些 CPU, Eini 
入 式 应 用 中 的 处 理 器 ， 带 有 的 寄存 器 一 般 不 超过 20 个 ; 而 另 一 些 计 算 机 的 寄存 器 可 能 超过 
100 人 个。 寄存器 使 用 名 字 而 不 是 地 址 来 访问 ， 比 如 r0，rl，…，r15 (ARM 的 命名 ) ; 或 是 
AX, BX, CX, DX, SP, BP, SI (Intel 的 命名 ) ; Æ D0, D1, =, D7 (Freesacle 的 命 


和 名)。 这 样 ， 计 算 机 指令 的 操作 码 就 可 以 使 用 很 少 的 几 位 来 引用 寄存 器 ; 指令 中 用 来 选择 寄 
存 器 的 字段 一 般 为 3 一 5 位， 具体 数值 取决 于 计算 机 中 程序 可 见 寄 存 器 的 个 数 。 因 为 主 存 的 
容量 (例如 4GB) 远 远 超过 寄存 器 的 ， 用 来 访问 存储 单元 的 地 址 可 能 为 32 位 或 者 64 位 长 。 
一 台 带 有 32 个 通用 寄存 器 的 计算 机 只 需 在 指令 中 使 用 5 位 即 可 指定 一 个 寄存 器 ， 而 为 了 唯 
一 地 访问 4GB 存储 空间 中 的 一 个 字 节 则 需要 使 用 32 位 地 址 。? 


计算 机 体系 结构 
| 计算 机 体系 结构 ( Computer architecture) 中 的 术语 “体系 结构 ( architecture) ”一 词 
| 类 似 于 建筑 界 中 的 同一 个 词 ， 因 为 它 既 指明 了 结构 ( structure)， 也 包括 设计 和 规划 。 计 
| 算 机 体系 结构 从 程序 员 或 者 编译 器 设计 者 的 角度 描述 了 计算 机 的 结构 ， 并 没有 从 电子 工 
| 程 师 的 角度 来 看 问题 。 

| 计算 机 体系 结构 的 起 源 可 以 追溯 到 20 世纪 60 年 代 早期 ， 那 时 的 每 一 台新 的 计算 机 
都 与 其 前 代 不 同 ， 都 带 有 自己 独立 的 指令 集 。IBM 改变 了 System/360 系列 计算 机 的 计算 
| 模式 ， 它 们 都 拥有 一 个 共同 的 体系 结构 和 指令 集 。 每 个 产品 执行 同样 的 指令 集 ， 因 此 可 
| 以 从 低 成 本 计算 机 升级 而 无 需 重 写 所 有 程序 。 这 在 .1964 年 可 是 一 个 革命 性 的 创新 。 而 
| 在 40 年 以 后 这 种 做 法 却 十 分 普通 。 














CPU 中 的 寄存 器 有 几 个 功能 。 一 些 寄存 器 是 高 速 暂 存 ( Scratchpad) 寄存 器 ， 用 于 保存 
数据 或 者 数据 单元 的 地 址 ( 即 指针 )。 另 外 一 些 则 是 特殊 功能 寄存 器 ， 比 如 对 一 个 循环 的 次 


papi ills Thole Conan oie ld da 
计数 器 (PC)， 它 记录 了 妥 执 行 的 下 一 条 指 夺 的 地 址 ;也 就 是 说 ， 程 序 计数 器 保持 对 程序 执 
行 的 跟踪 。 有 时 PC 也 叫 指 令 指 针 ， 这 更 反映 出 它 的 功能 。 

计算 机 指令 有 多 种 格式 。 为 简便 起 见 ， 假 设 通用 计算 机 提供 了 以 下 3 种 指令 格式 : © 

LDR 寄存 器 目的 ， 存 储 单元 源 

STR 寄存 器 源 ， 存 储 单元 目的 8 

Operation 寄存 器 目的 ， 寄 存 器 源 1， 寄 存 器 源 2 

例如 LDR rl1234、STR r3,2000、ADD rlr2,r3 以 及 SUB r3,r3,r1 都 是 合法 的 指令 。 

LDR “指令 把 数据 从 存储 器 复制 到 寄存 器 ， 而 STR 指令 则 执行 相反 的 操作 ， 即 把 数据 
从 寄存 器 传输 到 存储 器 。 例 如 ，LDR r1,1234 将 把 地 址 为 1234 的 存储 单元 中 的 数据 读 到 寄 
存 器 rl 中 ， 而 STR r2,5000 则 将 寄存 器 r2 的 值 写 入 地 址 为 5000 的 存储 单元 。 

第 三 种 指令 类 型 带 有 3 个 操作 数 ， 每 个 操作 数 都 引用 了 一 个 寄存 器 。 指 令 中 的 操作 


O 假定 计算 机 能 访问 内 存 中 单个 字 节 。 如 果 计 算 机 只 能 访问 32 位 的 字 ( word)， 则 只 需要 30 位 地 址 就 可 以 指 
定 一 个 字 。 

O 注意 ， 本 书 中 的 目的 操作 数 都 采用 粗 体 ， 而 目前 的 汇编 语言 指令 格式 并 没有 书写 标准 。 有 些 处 理 器 的 指令 格 
式 为 : 操作 源 操 作 数 ， 目 的 操作 数 ， 另 一 些 处 理 器 的 指令 格式 则 为 : 操作 目的 操作 数 ， 源 操作 数 。 采 用 粗 
体 表 示 目 的 操作 数 就 不 用 担心 采用 的 是 哪 一 种 处 理 器 的 指令 格式 约定 了 。 

© 从 一 致 性 来 说 ， 该 指令 应 该 写 为 STR 目的 存储 单元 ， 源 寄存 器 ， 目 的 操作 数 应 该 放 在 左边 。 不 过 ，ARM 在 
Load 和 Store 操作 中 经 常 把 寄存 器 放 在 左边 ， 为 避免 读者 从 简单 处 理 器 转换 到 ARM 处 理 器 时 产生 概念 混 
淆 ， 本 书 决 定 采 用 ARM 的 这 种 格式 。 

@ 为 了 方便 读者 理解 ， 本 应 采用 LOAD、STORE 等 指令 助 记 符 ， 而 不 是 LDR 和 STR。 之 所 以 还 要 使 用 LDR 
和 STR 是 为 了 保持 与 ARM 指令 集 一 致 。 
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码 9 部 分 被 表示 为 operation， 它 定义 了 CPU 完成 的 操作 (jin ADD, SUB, AND). HE 
码 后 面 的 3 个 操作 数字 段 指 定 了 参与 操作 的 寄存 器 。 源 操作 数 指明 了 数据 的 来 源 ， 目 的 操作 
数 指明 了 结果 存放 在 哪里 。 这 种 三 操作 数 的 寄存 器 - 寄存 器 型 指令 格式 是 ARM、MIPS 和 
PowerPC 等 RISC 处 理 器 的 典型 指令 格式 ， 与 Intel Pentium 系列 等 CISC 微 处 理 器 的 两 操作 
数 指令 格式 完全 不 同 。 

请 注意 ， 指 令 ADD rl,r2,r3 将 寄存 器 r2 与 13 的 内 容 相 加 ， 然 后 把 和 写 人 寄存 器 r1， 因 
此 寄存 器 12 和 73 的 内 容 保持 不 变 。 

下 面 来 看 一 看 我 们 的 简单 计算 机 是 如 何 从 内 存 中 读 出 并 执行 一 条 指令 的 。 图 3-1 描述 
了 第 1 章 中 介绍 的 存储 程序 计算 机 的 功能 框图 。 中 央 处 理 单 元 (CPU) 包括 了 算 逻 运算 单元 
(ALU)、 寄 存 器 和 总 线 。CPU 中 还 包括 控制 单元 ， 它 是 一 个 硬件 子 系统 ， 负 责 取 指 、 译 码 ， 
并 根据 译 码 得 到 的 信息 来 控制 数据 在 寄存 器 和 功能 单元 (比如 ALU) 之 间 的 流动 ， 它 也 是 一 
个 输入 /输出 接口 。 第 6 章 会 详细 介绍 指令 是 如 何 译 码 和 执行 的 。 


中 央 处 理 单 元 (CPU ) 
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图 3-1 计算 机 基本 结构 


图 3-2 给 出 了 虚构 的 存储 程序 计算 机 的 结构 。。 图 中 最 浅 的 阴影 部 分 目前 暂时 可 以 忽略 。 
图 3-2 中 的 寄存 器 定义 如 下 。 
MAR 存储 器 地 址 寄存 器 ， 保 存 了 读 或 者 写 操作 年 在 访问 的 存储 单元 
MBR ”存储 器 数据 寄存 器 ， 保 存 了 刚 从 存储 器 中 读 币 本 致 据 ， 或 将 写 人 存储 器 的 数据 ) 
PC 程序 计数 器 ,保存 了 要 执行 的 下 一 条 指令 的 地 址 。 因 此 ，PC 指向 存放 了 下 一 条 指 
令 的 存储 单元 。 
IR ”指令 寄存 器 ， 存 放 最 近 从 存储 器 中 读 出 的 指令 。 也 就 是 当前 正在 执行 的 指令 。 
r0-r7 寄存 器 文件 ， 包 括 8 个 通用 目的 寄存 器 r0, rl, r2, …, r7， 用 于 存放 临时 (工作 ) 
数据 (例如 计算 的 中 间 结 果 )。 一 台 计算 机 至 少 需要 一 个 通用 寄存 器 。 我 们 的 简单 计算 机 中 
有 8 个 通用 寄存 器 。 


O 术语 操作 码 和 指令 偶尔 会 交替 使 用 。 本 书 中 ， 指 令 表示 可 在 程序 中 指明 的 最 原始 的 机 器 级 行为 。 指 令 用 操作 
码 表示 特定 的 动作 (例如 ADD, MOVE, 、STR)， 也 包括 操作 数 。 

日 计算 机 在 两 个 重要 的 方面 是 虚构 的 : 一 是 简化 的 指令 集 ; 二 是 当前 指令 执行 完毕 才 开始 下 一 条 指令 。 后 面 会 
介绍 指令 执行 如 何 重 伙 进行， 也 就 是 当前 指令 还 未 执行 完毕 就 已 经 开始 下 一 条 指令 。 这 种 机 制 就 是 流水 线 ， 
它 是 所 有 计算 机 的 基础 。 


82 第 二 部 分 HERA EH 



















存储 器 地 址 寄存 器 
MA PC ak # IR 获得 一 
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指令 的 操作 数 域 
EREIN 
H BA E 据 路 
提供 了 指令 所 需 的 之 间 的 数据 路 径 数 径 


源 和 目的 操作 数 ” 一 个 读 周 期 内 数据 从 存 
储 器 移 到 MBR， 或 者 一 
个 写 周期 内 数据 从 MBR 
移 到 内 存 





人 存储 器 中 读 出 
仿 所 经 过 的 路 径 
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图 3-2 虚构 的 存储 程序 计算 机 的 部 分 结构 


除 寄存 器 外 ， 图 3-2 中 的 计算 机 还 带 有 用 来 在 寄存 器 之 间 以 及 寄存 器 与 算 逻 运算 单元 
(ALU) 之 间 传 送信 息 的 总 线 。ALU 通过 单 操作 数 运算 ( 单 值 或 一 元 运算 ) 或 者 双 操作 数 运 
算 ( 双 值 或 二 元 运算 ) 对 数据 进行 处 理 。 一 元 运算 的 典型 例子 有 取 负 、 递 增 、 清 除 ( 置 为 
0); 二 元 运算 的 典型 例子 有 与 (CAND) 以 及 异 或 (XOR) 等 迎 辑 运算 。 后 面 还 会 遇 到 三 操作 
数 指令 ， 比 如 a+b c， 它 首先 计算 5 与 c 的 积 ， 再 将 其 与 & 相 加 。 

图 3-2 中 的 控制 单元 ( CU) 将 解释 执行 指令 寄存 器 CIR) 中 的 指令 ; 也 就 是 说 ， 它 使 得 
指令 操作 码 所 指定 的 指令 被 执行 。 它 利用 时 钟 脉冲 流 和 操作 码 生 成 控制 计算 机 总 线 、 存 储 
器 、 寄 存 器 与 功能 单元 的 信号 。 请 回顾 第 2 章 中 控制 单元 使 用 三 态 门 和 寄存 器 时 钟 使 数据 在 
计算 机 中 移动 的 内 容 。 

图 3-2 中 地 址 总 线 和 数据 总 线 分 别 抑 图 侧 的 图 示 。 地 址 就 是 存储 需 中 一 个 字 位 置 的 二 进 
制 表 示 。 图 3-2 中 的 处 理 器 采用 寄存 器 - 寄存 器 型 体系 结构 ， 在 执行 一 条 形 如 ADD r1,r2,r3 
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的 指令 时 需要 3 个 寄存 器 地 址 。 当 计算 机 在 寄存 器 与 存储 器 之 间 传 递 数 据 时 需要 两 个 操作 
数 : 寄存 器 和 存储 单元 地 址 。 一 条 载 入 寄存 器 指令 ，8 比如 LDR r1,1234, 用 RTL 语言 定义 
为 [rl] e [1234]。 第 1 章 已 经 介绍 了 RTL， 符 号 二 指明 了 数据 的 传送 方向 ， 而 口 则 代表 寄 
存 器 或 者 存储 单元 的 内 容 。 

F RTL 记号 表明 了 图 3-2 中 的 处 理 器 如 何 读 出 并 执行 指令 LDR r1,1234 的 。 第 一 列 
(例如 FETCH) 为 标号 字段 ， 用 于 识别 代码 。 请 注意 最 右边 以 分 号 开始 的 字段 为 和 注释， 用 于 
辅助 理解 代码 。 本 教材 约定 使 用 分 号 来 分 隔 代码 与 注释 (这 也 是 ARM 的 约定 )。 








FETCH [MAR] + [PC] ; 把 PC 的 值 复制 到 存储 器 地 址 寄存 器 
[PC] < [PC]+4 ; PC 递增 ， 指 向 下 一 条 指令 
[MBR] 二 [[MAR]] ; 读 出 地 址 为 MAR 的 指令 
[IR] + [MBR] ; 将 指令 从 MBR 复制 到 IR 

LDR [MAR] + [IR( 地 址 )] ; 把 IR 中 的 操作 数 地 址 复制 到 MAR 
[MBR] + [[MAR]] ; 将 地 址 为 MAR 的 操作 数 读 到 MBR 中 
[r1] + [MBR] ; 把 操作 数 移 到 寄存 器 zl 


下 面 详细 分 析 每 一 个 操作 。 

[MAR] = [PC] 程序 计数 器 ， 包 含 下 一 条 要 执行 的 指令 的 地 址 ， 它 被 复制 到 存储 器 地 址 
寄存 器 中 ， 用 来 访问 存储 器 ， 读 出 将 要 被 执行 的 指令 。 

[Pc] 全 [PC]+4 程序 计数 器 加 4， 即 指向 下 一 条 要 执行 的 指令 。 指 令 按 照 顺序 执行 ， 
除非 有 流 控 制 指令 改变 了 原来 的 顺序 。 增 量 为 4 而 不 是 1 是 因为 ARM 指令 长 为 4 个 字 节 。 

[MBR] + [[MAR]] MAR (存储 地 址 ) 所 指 的 存储 单元 的 内 容 被 复制 到 存储 器 数据 寄存 
器 (MBR) 中 。 因 为 MAR 包含 要 执行 的 下 一 条 指令 的 地 址 ，MBR 则 存放 了 当前 指令 的 操 
作 码 。 符 号 [[MAR]] 表示 地 址 存放 在 MAR 中 的 存储 单元 的 内 容 。 

[IR] 一 [MBR] 将 存储 器 数据 寄存 器 的 内 容 复制 到 指令 寄存 器 IR 中 。 现 在 IR 中 存放 
了 要 执行 的 指令 。 控 制 单元 用 指令 中 的 位 生成 实现 该 指令 所 需 的 控制 信号 。 


寄存 器 可 见 性 = 

寄存 器 有 3 种 类 型 。 通 用 寄存 器 用 来 保存 计算 过 程 产生 的 临时 数据 。ARM 处 理 器 
有 16 个 通用 寄存 器 ， 名 为 r0, rl, …, r15。 寄 存 器 r14 和 Trl15 是 通用 寄存 器 ， 因 为 程序 员 
可 以 使 用 与 访问 r0 ~ 113 相同 的 指令 来 访问 这 两 个 寄存 器 。 然 而 ，rl14 与 T15 又 在 ARM 
处 理 器 体系 结构 中 扮演 着 特殊 的 角色 。 

特殊 功能 寄存 器 用 于 特定 的 功能 。 例 如 ，PC 指向 要 执行 的 下 一 条 执行 指令 。 其 他 特 
殊 功 能 寄存 器 还 有 状态 寄存 器 、 栈 指针 寄存 器 以 及 CPU 标识 和 寄存器， 后 者 存放 制造 商 的 
名 称 以 及 CPU 的 型 号 。 

还 有 一 些 寄存 器 是 程序 员 不 可 见 的 ， 不 属于 处 理 器 体系 结构 的 一 部 分 ， 不 能 被 程序 
员 直 接 使 用 。 例 如 ， 指 令 寄 存 器 IR 和 内 存 地 址 寄存 器 MAR 都 是 程序 员 不 可 见 的 寄存 
器 。 这 些 都 是 实现 计算 机 所 必需 的 ， 但 又 不 属于 其 ISA 的 一 部 分 。 





© Load/Store 计算 机 ， 如 ARM， 不 支持 直接 从 指定 的 内 存单 元 (比如 1234 ) 加 载 数据 ， 而 是 通过 寄存 器 指针 
间接 指定 内 存单 元 (例如 ，LDR r1, [r2], 2 寄存 器 中 包含 实际 内 存单 元 的 地 址 )。CISC 处 理 器 ， 如 IA32， 允 
许 直 接 内 存 访 问 。 这 里 使 用 直接 内 存 寻 址 方式 ， 因 为 它 比较 容易 理解 。 








使 用 多 路 选择 器 实现 数据 流 
| 下 图 描述 了 如 何 使 用 第 2 章 所 介绍 的 多 路 选择 器 来 实现 图 3-2 中 一 部 分 概念 电路 图 。 
| 多 路 选择 器 用 来 控制 被 送 往 PC 或 者 MAR 的 数据 流 。 多 路 选择 器 由 控制 单元 产生 的 信 
| 号 来 控制 。 





图 3-2 中 的 一 部 分 


使 用 多 路 
选择 器 实现 


来 自 指令 寄存 器 
IR 的 分 支 地 址 
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为 什么 程序 计数 器 要 加 4 

计算 机 存储 器 按 字 节 编 址 ， 它 的 各 个 字 节 存储 单元 依次 命名 为 0, 1, 2, …。 但 是 ，32 
位 微 处 理 器 使 用 32 位 指令 和 32 位 字数 据 。 因 此 ， 每 一 次 取 指 后 PC 必须 加 4， 因 为 4 
| 字 节 x8 位 / 字 节 =32 位 =1 指令 字 。 

4 个 RTL 操作 构成 了 处 理 周期 的 取 指 阶段 ， 该 阶段 从 存储 器 中 读 出 指令 ， 程 序 计数 器 加 
4， 为 读 取 下 一 条 指令 做 好 准备 。 第 二 组 的 3 个 操作 ， 标 记 为 LDR， 构 成 了 处 理 周期 的 执行 


阶段 。 每 条 指令 都 从 同样 的 取 指 阶段 开始 。 但 是 ， 每 条 指令 的 执行 阶段 却 由 指令 寄存 器 IR 
中 的 指令 字 所 决定 。 图 3-3 说 明了 取出 并 执行 指令 LDR r1,1234 的 操作 序列 。 


3.1.1 扩展 处 理 器 : 常量 处 理 


前 面 已 经 介绍 了 计算 机 如 何 使 用 LDR r1,1234 之 类 的 指令 存储 器 中 的 数据 ， 这 里 的 
“1234” 是 指 地 址 为 1234 的 存储 单元 的 内 容 。 假 设 现在 要 将 数值 1234 载 人 寄存 器 rl 中 。 这 
样 的 数字 叫 作 立即 操作 数 。5 


O 在 计算 机 科学 的 文献 中 ， 术 语 “immediate value ”和 “literal value ”可 以 互 换 使 用 


B3F 体系 结构 与 组 成 85 





立即 数 (literal) 是 一 个 在 运算 中 可 以 直接 使 用 的 数 ， 与 存储 单元 的 值 完全 不 同 ， 需 要 
用 哈 希 符号 (办 9 前 级 来 声明 。 汇 编 语 言 指令 LDR 11,200 将 地 址 为 200 的 存储 单元 的 内 容 加 
载 到 寄存 器 rl 中 ， 用 RTL 语言 描述 为 [r1] — [200]。 汇 编 语言 指令 LDR 11,4200 把 常量 200 
直接 加 载 到 寄存 器 rl 中 ， 用 RTL 语言 描述 为 [rl] — 200。 另 一 个 使 用 立即 数 的 例子 是 ADD 
r0rl#25， 它 把 立即 数 25 与 寄存 器 rl 的 内 容 相 加 ， 并 将 结果 保存 到 r0 寄存 器 中 。 


一 些 常用 指令 
在 继续 介绍 后 续 内 容 之 前 ， 需 要 介绍 后 面 一 些 例子 中 使 用 的 简单 指令 。 下 面 是 一 些 
类 ARM 指令 ， 因 为 它们 采用 了 ARM 的 汇编 语言 格式 。 但 是 ， 请 注意 ARM 的 load 和 


| 
| store 指令 并 不 支持 直接 (绝对 ) 存储 地 址 。 
| 
| 
| 
| 
| 


LDR r0,address ， 把 地 址 为 addr 的 存储 单元 的 内 容 加 载 到 寄存 器 r0 中 。 

STR r0,address 把 寄存 器 r0 的 值 保 存 到 地 址 为 addr 的 存储 单元 中 。 

ADD r0,r1,r2 FRE 的 内 容 与 寄存 器 了 2 的 内 容 相 加 ， 结 果 保 存在 寄 丰 器 0 中 。 
SUB xr0,r1,r2 寄存 器 rl 的 内 容 减 去 寄存 器 12 的 内 容 ， 结 果 保 存 到 寄存 器 r0 中 。 


BPL target 如 果 前 一 操作 的 结果 大 于 或 等 于 0， 则 跳 转 到 地 址 target 处 。 请 
| 注意 target 是 一 个 数值 一 一 些 处 使 用 符号 名 是 为 了 方便 阅读 。 
BEQ target 如 果 先 前 操作 的 结果 为 0， 则 跳 转 到 地 址 target 处 。 
B target 无 条 件 跳 转 ( 即 jump) 到 地 址 为 target 的 指令 ， 即 执行 地 址 
target 处 的 指令 。 


请 注意 伪 指 令 LDR r0,addr 和 STR r0,addr， 它 们 不 属于 ARM 处 理 器 的 指令 集 ， 汇 
| 编 器 会 自动 把 它们 翻译 成 其 他 的 等 效 指令 。 后 面 会 介绍 这 样 做 的 原因 。 


a manaen minty mama mn mein 


图 3-4 描述 了 实现 立即 数 操作 所 需 的 新 数据 路 径 。 一 条 从 指令 寄存 器 IR 出 发 ， 将 立即 
数 送 到 寄存 器 文件 MBR A ALU 的 通路 。 例 如 ， 当 执行 指令 ADD r0,r1,#25 时 ， 要 与 寄 
存 器 rl 相 加 的 立即 数 来 自 指令 寄存 右 IR 的 操作 数字 段 ， 而 不 是 由 存储 器 系统 经 过 MBR 送 
来 的 。 


3.1.2 ”扩展 处 理 器 : 流 控 制 


流 控制 是 指 任意 能 够 改变 程序 中 指令 顺序 执行 的 动作 。 换 句 话说， 它 是 指 计算 机 非 顺 序 
执行 指令 的 能 力 。 通 常 ， 流 控制 是 指 转移 到 程序 中 特定 位 置 的 分 支 和 跳 转 指令 2 、 子 程序 /过 
程 调用 ， 返 回 、 中 断 以 及 操作 系统 调用 。 必 须 强 调 的 是 ， 流 控制 是 反映 计算 机 做 出 决策 并 在 
多 个 动作 序列 间 选 择 的 能 力 的 关键 因素 ， 这 一 点 十 分 重要 。 

流 控制 的 典型 例子 就 是 条 件 行为 ， 它 允许 处 理 器 在 两 个 可 能 的 动作 序列 中 选择 一 个 执 
行 。 读 者 已 经 在 第 1 章 和 第 2 章 遇 到 了 这 个 概念 ， 下 面 将 说 明 它 如 何在 汇编 语言 中 使 用 。 计 
算 机 通过 测试 一 个 操作 的 结果 ， 然 后 执行 程序 中 两 条 路 径 中 的 一 个 来 实现 条 件 行为 ;也 就 是 
说 ， 测 试 结果 决定 了 要 将 两 个 不 同 地 址 中 的 哪 一 个 加 载 到 程序 计数 器 中 。 相 应 地 ， 存 储 器 将 
会 从 两 个 可 能 候选 指令 中 读 出 一 个 ， 并 将 其 加 载 到 指令 寄存 器 中 。 














er Wm 


© 在 ARM fil Freescale 汇编 语言 中 ， 符 号 # 用 来 声明 立即 数 。 但 这 并 不 是 通用 的 。 
O 术语 “分 支 ” 和 “ 跳 转 ”是 同义词 ， 尽 管 有 些 人 用 分 支 表示 两 个 可 能 路 径 中 的 一 个 ， 而 用 跳 转 表 示 无 条 件 的 


goto. 
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存储 器 地 址 寄存 器 


| 地 址 


程序 计数 器 存储 器 地 址 寄存 器 





一 | area 0 
控制 单元 | GE gsc cae 控制 单元 
第 1 步 [Larter] 第 2 步 
aR — [PC] | [MBR] +~ [[MAR]] 
PC] « [PC] +4 | P ie Hh MAR 所 指 存储 单 ro aru 6 | 
将 PC 复制 到 存储 器 地 元 中 的 指令 ， 并 将 其 故人 一 一 区 生生 
址 寄存 器 中 并 更 新 PC 仓储 器 数据 寄存 器 (MBR) 


证 程序 计数 器 站 | 存储 器 地 址 寄存 器 
| H| 


数据 


| 
I 


操作 码 ”操作 数 








控制 单元 | 
第 4 步 | | | 
[MAR] — [IR (Address) ] P 
e a T T 


数 地 址 复制 到 MAR 中 


程序 计数 器 存储 器 地 址 寄存 器 


El 


第 3 步 


[IR] + [MBR] PIG) 
将 MBR 中 的 指令 复制 


到 指令 寄存 器 中 





到 十 





ret 





第 5 步 Latan -| | 第 6 步 寄存 回忆 | 
[MBR] + [ [MAR] ] | [R1] + [MBR] 


读 出 MAR 所 指 的 存 | ze 将 MBR 中 的 内 容 复 制 fro acu |: | 
储 单元 中 的 操作 数 , 并 RQ AMY g 到 寄存 着 rl 中 APD) AE Sp 


保存 在 MBR 中 


图 3-3 取 指 /执行 周期 中 操作 序列 
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存储 器 地 址 寄 
存 器 从 PC 或 者 IR 
| 获得 一 个 地 址 
指令 的 操作 数字 段 
要 么 是 地 址 ， 要 么 是 
立即 数 常 量 Be = 
立即 数 数据 路 径 


控制 单元 
es 


控制 单元 确定 指 | 
令 中 的 操作 数 是 地 上 
址 还 是 立即 数 


在 IR 地 址 字段 、 
ALU 和 寄存 器 文 | 
件 之 间 的 立即 数 数 册 
据 路 径 





| Q 操 作 数 来 源 于 
.| MBR 或 者 立即 数 
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图 3-4 立即 操作 数 的 信息 通路 
图 3-5 显示 了 计算 机 实现 条 件 控制 所 需 的 信息 通路 。BEQ 那样 的 条 件 指令 的 结果 要 么 是 
程序 正常 地 顺序 执行 ， 下 一 条 指令 地 址 为 PC+4 ; 要 么 将 一 个 新 的 地 址 加 载 到 PC 中 并 执行 
分 支 ， 跳 转 到 另外 一 段 代码 中 。 下 述 代码 段 描述 了 一 个 条 件 分 支 的 行为 。 


SUBS r5,r5,#1 x r501 

BEQ onZero ; 如 果 r5 为 0 则 跳 到 标号 “onzZero” 处 执行 
notZero ADD ri1,r2,r3 ; 否则 继续 执行 
onZero SUB r1,r2,r3 ; 分 支 的 转移 目的 地 


在 这 个 例子 中 ， 第 一 条 指令 SUBS r5,r5,#1 将 寄存 器 rs 的 值 减 1。9。 完 成 该 操作 之 后 ， 
寄存 器 5 的 值 或 许 是 0 或 许 不 是 0。 下 面 将 测试 该 结果 是 否 为 0。 
如 果 上 一 条 指令 的 结果 为 0， 下 一 条 指令 BEQ onZero 会 跳 转 到 标号 “onZero” 4b, A 


O 有 些 读者 可 能 注意 到 ， 减 法 指令 的 助 记 符 为 SUBS 而 不 是 SUB。ARM 处 理 器 不 会 自动 更 新 条 件 码 寄 存 器 。 
为 了 确保 更 新 条 件 码 寄存 器 ， 程 序 员 必 须 在 指令 后 面 添加 S。 
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此 ， 如 果 rs 寄存 器 的 值 为 0， 则 会 跳 到 指令 SUB r1, r2, r3 处 ， 并 从 该 指令 处 继续 执行 。 否 
则 就 会 执行 紧 跟 在 BEQ 后 面 的 那 条 指令 ( 即 ADD)。 这 段 代 码 的 功能 为 : i£ zero then 
rl=r2-r3 else rl=r2+r3, 

请 查看 图 3-5 中 实现 条 件 控制 的 信息 通路 。 这 条 新 的 信息 通路 将 ALU 4 fee rb PC 
连接 在 一 起 ， 并 允许 ALU 决定 接 下 来 要 执行 两 个 可 选 指令 中 的 哪 一 个 。 决 定 分 六 转移 (不 
转移 ) 的 条 件 就 是 ALU 所 执行 的 操作 的 结果 。 例 如 ， 如 果 上 一 个 操作 的 结果 为 0 或 者 为 
负 或 者 进位 位 被 置 位 ， 则 分 支 将 转移 成 功 。 图 3-5 ALU 的 信息 将 被 写 人 条 件 码 寄存 器 
(Condition Code Register，CCR)， 它 保存 了 各 种 用 于 测试 的 条 件 (如 ， 零 、 负 、 正 )。 也 就 
是 说 ， 当 ALU 执行 一 个 操作 时 ， 它 会 更 新 CCR 中 的 零 位 、 借 位 位 、 负 位 以 及 溢出 位 。 














PC MAR 


程序 计数 器 存储 器 地 址 寄存 器 








MBR 
存储 器 缓冲 寄存 器 
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t 

| 指令 的 操作 
| | 数 域 要 么 是 地 
| | 址 要 么 是 立即 
| 数 常量 












分 支 控制 从 增 
量 器 中 取出 下 一 


NSE hi: 
gant 
at RAY OI 


个 顺序 地 址 或 者 | ween | 
取出 指令 寄存 器 一 一 一 
IR 中 的 地 址 


控制 单元 使 用 条 件 码 位 ， 要 么 依 序 选择 下 
一 个 指令 ， 要 么 将 一 个 新 地 址 加 载 到 程序 计 
数 器 
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图 3-5 机 器 级 条 件 行为 的 实现 


寄存 器 CCR 与 控制 单元 相连 。 控 制 单元 负责 指令 译 码 ， 并 生成 必要 的 控制 信号 以 执行 
指令 。 当 BEQ 等 条 件 分 支 指令 执行 时 ， 控 制 单元 从 CCR 中 选择 所 需 的 条 件 位 并 进行 测试 
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(此 时 将 测试 零 位 )。 如 果 测 试 的 条 件 位 为 false， 则 CPU 按照 正常 顺序 执行 下 一 条 指令 ( 即 
PC+4 所 指 的 指令 )。 如 果 测 试 的 条 件 位 为 tue， 则 CPU 就 会 跳 到 条 件 指 令 分 支 字段 所 指定 
的 地 址 处 ， 该 地 址 被 称 作 分 支 目 标 地 址 (Branch Target Address, BTA ) 。 

BPL Error (正则 跳 转 ) 是 一 条 典型 条 件 的 指令 ， 如 果 前 一 个 操作 的 结果 为 正 ， 它 会 跳 转 
到 标号 为 “Error” 的 代码 区 域 。 在 图 3-5 中 ， 指 令 寄 存 器 中 的 地 址 字段 与 程序 计数 器 之 间 
的 地 址 总 线 允 许 将 一 个 非 顺 序 地 址 加 载 到 程序 计数 器 PC 中 。 


ee ae 
| 
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图 3-6 ALU 到 指令 的 反馈 
图 3-6 说 明了 ALU 运算 的 结果 如 何 被 反馈 给 程序 计数 器 PC， 以 选择 实现 控制 转移 的 


指令 。 


| 我 们 从 使 用 程序 计数 器 中 的 地 址 到 存储 器 地 址 中 取出 条 件 分 支 指令 开始 。 分 支 指令 
| 读 出 条 件 码 寄存 器 CCR 的 内 容 ， 其 内 容 由 上 一 条 指令 的 结果 决定 。 

| 在 执行 时 ， 条 件 分 支 指令 时 将 完成 以 下 两 个 动作 中 的 一 个 : 

o 如 果 CCR 中 的 测试 位 为 false， 则 处 理 器 从 [PCH 处 取出 下 一 条 指令 。 

@ 如 果 CCR 中 的 测试 位 为 true， 则 程序 计数 器 PC 从 指令 寄存 器 的 操作 数字 段 载 入 
| 新 的 地 址 ， 并 跳 转 到 新 地 址 处 执行 。 


1. 状态 信息 

下 面 进一步 分 析 条 件 分 支 是 如 何 实现 的 。 计 算 机 执行 一 个 操作 时 ， 它 将 状态 或 者 条 件 信 
息 保存 在 图 3-5 的 CCR 中 。 处 理 器 记录 下 结果 是 否 为 0(Z),， 结果 的 二 进 制 形式 是 否 为 负 
(N), 是否 产生 进位 位 (C), 或 者 是 否 算术 溢出 (V)。 请 考虑 下 述 例子 中 8 位 加 法 对 CCR 中 








er pie oie 


”计算 机 厂商 使 用 不 同 的 术语 描述 状态 寄存 器 。 本 书 使 用 CCR (条 件 码 寄存 器 ) 描述 计算 机 操作 的 结果 。ARM 
将 它 叫 作 “ 当 前 处 理 器 状态 寄存 器 (CPSR)”， 而 Intel 叫 它 “ 状 态 寄 存 器 ”。 
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位 的 影响 。 我 们 还 给 出 了 相同 的 十 进 制 运算 对 条 件 码 位 影响 的 例子 


例 1 例 2 例 3 例 4 
00110011 11111111 01011100 11011100 
+01000010 +00000001 +01000001 +11000001 
01110101 100000000 10011101 110011101 
Z=0, N=0 Z=1, N=0 Z=0, N=1 Z=0, N=1 
C=0, V=0 C1, V= C=0, V=1 C=1, V=0 
51 =] 92 —36 
+66 + +65 +63 
117 0 —99 —99 
正确 结果 正确 结果 错误 结果 正确 结果 
结果 为 0 结果 为 负 结果 为 负 
产生 进位 产生 溢出 产生 进位 


CCR 中 的 位 会 在 每 一 次 操作 后 被 更 新 ，i 这 一 说 法 并 不 完全 准确 。 实际 情况 非常 复杂 
一 个 处 理 器 与 另外 一 个 处 理 器 的 情况 完全 不 同 。Intel IA32 和 Freescale 68K 那样 的 CISC 处 
理 器 会 在 每 次 操作 后 自动 更 新 状态 标志 ， 而 ARM 那样 的 RISC 处 理 器 则 需要 程序 员 来 强制 
更 新 状态 标志 。 对 于 ARM 处 理 器 ， 需 要 在 指令 中 添加 后 级 “S”( 例 如 SUBS、ADDS) 来 完 
成 。 一 些 指 令 ， 比 如 CMP (比较 ) 和 TST (测试 ), 会 自动 更 新 状态 标志 位 ， 不 需要 添加 后 
组 “9”， 


| 更 新 CCR 还 是 不 更 新 CCR ? 
| RISC 程序 员 会 选择 何 时 更 新 CCR， 是 通过 在 指令 操作 码 后 添加 “S”(ARM 处 理 器 
| 的 情形 ) 显 式 更 新 ， 还 是 使 用 CMP 指令 进行 比较 米 隐 式 更 新 。 
CISC 处 理 器 一 般 会 在 每 次 操作 后 自动 更 新 CCR。 然 而 ,不 同 CISC 处 理 器 系列 间 
| 也 有 很 大 的 不 同 。 例如， 有 些 处 理 器 会 在 Load 指令 后 更 新 CCR， 有 些 则 不 会 。68K BR 
| 有 数据 寄存 器 也 有 地 址 寄存 器 。 如 果 在 数据 寄存 器 上 执行 操作 则 会 更 新 CCR。 如 果 在 地 
| 址 寄存 上 器 执行 操作 则 不 会 更 新 CCR。 这 是 因为 地 址 寄存 器 上 的 操作 会 生成 指针 ， 我 们 
| 不 赞同 通过 更 新 指针 去 修改 CCR. 
| 每 一 条 指令 执行 后 自动 更 新 CCR 的 优点 是 ， 无 需 在 指令 字 中 设置 代表 更 新 或 不 更 
新 的 控制 位 (指令 位 是 非常 宝贵 的 ); 其 缺点 是 有 时 可 能 希望 把 状态 保留 到 几 条 指令 后 而 
| 不 是 每 次 操作 后 都 破坏 状态 位 。 


pe ™ 





2. 分 支 指令 例子 

下 面 将 说 明 如 何 使 用 条 件 分 支 指令 BEQ address 来 实现 高 级 语言 结构 。 首 先 ， 处 理 器 用 
IR 中 BEQ 指令 的 操作 码 字 段 选 出 CCR 中 的 一 位 进行 测试 (例如 Z、N 或 C 位 )。 如 果 被 测 
试 的 位 为 1， 则 PC 会 载 人 一 个 新 地 址 ( 即 分 支 目标 地 址 )， 否 则 PC 不 变 。 汇 编 语言 结构 


BEQ address WR Z 标志 位 被 置 位 ， 则 跳 转 到 address 处 
用 RTL 表示 为 IF [Z] = 1 THEN [PC] + <address>, 这 里 [Z] 表示 CCR 的 Z 位 。 请 
考虑 下 面 的 高 级 语言 代码 段 : 


X =P-Q 
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IF X20 P+ 5 


THEN X = 
= P+ 20 


ELSE X 


下 面 用 前 面 定义 好 的 ARM 指令 集 子 集 把 这 段 代码 翻译 为 ARM 代码 。 在 下 述 代码 中 ， 
加 阴影 的 行 是 汇编 伪 指 令 ， 为 汇编 语言 代码 提供 运行 环境 。 汇 编 伪 指令 本 身 不 会 被 执行 。 伪 
指令 DCD 为 3 个 操作 数 保 留存 储 单元 。 例 如 ，P pcp 12 相当 于 给 当前 存储 单元 分 配 符号 名 
P， 且 将 12 保存 在 该 单元 中 。 也 即 ， 把 数字 12 存放 在 指定 的 存储 单元 中 ， 且 把 该 存储 单元 
命名 为 P。 这 条 汇编 语句 等 价 于 C 语言 语句 int p = 12。 后 面 讨论 汇编 语言 时 会 更 详细 地 介 





绍 汇编 伪 指令 。 
LDR r0,P ; 将 存储 单元 的 值 加 载 到 寄存 器 ro pO 
LDR r1,Q ; 将 存储 单元 Q 的 值 加 载 到 寄存 器 xl 中 
SUBS  r2,r0,r1 ; 的 值 减 去 Q 的 值得 到 X= P - 08 
BPL THEN ; WAX SO 则 执行 THEN 部 分 代码 
ADD r0,r0, #20 ; B roh 20 BH] P + 20 
B EXIT ; Mit THEN 部 分 跳 转 到 EXIT 部 分 
THEN ADD r0,r0,#5 ; 否则 r0 加 5 得 到 PP + 5 
EXIT STR r0,X ; 把 工 0 的 值 存 到 内 存单 元 X 
STOR 
P DCD 12 ; PHEAREA=ARRER PL QL XRF 
Q DCD 9 ; 存储 空间 。 存 储 地 址 分 别 为 36、40 和 44。 
x DCD 
上 述 汇编 语言 指令 可 用 RTL 符号 表示 为 : 
LDR r0,P ; Leag + [E] 
LDR ri;Q pizi — [o] 
SUBS r2, EO, EL ; [r2] +— [r0] - [r1] 
BPL THEN ;IF[r2] =0[PC]— THEN 
ELSE ADD r0,r0,#20 ; [r0]«-[r0]+20 
B EXIT ; [PC] +— EXIT 
THEN ADD r0,r0,#5 r [r0]«-[r0]+5 
EXIT STR r0,X ; (X]< [ro] 


图 3-7 说 明了 上 述 代 码 是 如 何在 前 面 讨论 的 虚拟 计算 机 上 执行 的 。 它 考虑 了 以 下 两 种 情形 : 

情形 1: P= 12, 0 = 9， 分 支 转移 成 功 (控制 转移 到 分 支 目 标 地 址 ); 

情形 2: P=12,0=14, 分 支 转移 不 成 功 (控制 转移 到 PC+4 )。 

图 3-7 给 出 了 这 个 代码 段 的 两 个 存储 映射 。 这 两 个 映射 的 唯一 区 别 在 于 存储 单元 40 中 
的 2 值 不 同 。 每 个 映射 下 方 是 相应 代码 所 执行 的 指令 序列 。 图 中 还 列 出 了 每 条 指令 开始 和 
结束 时 PC 的 值 ， 以 及 指令 结束 时 寄存 器 的 内 容 。 

下 面 请 看 另外 一 个 例子 ， 它 在 循环 中 使 用 条 件 分 支 来 计算 1 + 2 + 3 + … +20。 在 这 个 
例子 里 ， 计 数值 从 1 递增 到 20。 在 最 后 一 次 迭代 中 ， 计 数值 变 为 21。 操 作 8CMP ro, #21 通 


© 请 记 住 LDR r0,P 是 伪 指 令 ， 并 没有 在 ARM 处 理 器 中 实现 。 这 里 使 用 它 是 为 了 帮助 读者 理解 (所 有 CISC 处 
理 器 都 实现 了 这 种 形式 的 指令 ; 也 就 是 ， 把 指定 存储 单元 的 内 容 加 载 到 寄存 器 中 )。 

© ARM 处 理 吕 不 会 在 每 次 操作 后 更 新 条 件 标志 ， 除 非 在 指令 后 添加 后 缀 S 来 强制 更 新 。 

© 请 注意 操作 码 是 CMP 而 不 是 CMPS。 了 既然 比较 的 目的 是 在 分 支 前 设置 条 件 码 ， 就 没有 必要 在 助 记 符 后 添加 
RAST. 





过 减法 比较 ro 中 的 计数 值 与 立即 数 21。 除 非 前 面 的 结果 为 零 ， 下 一 个 操作 BNE Next 会 跳 转 
到 前 面 标号 为 Next 的 指令 处 。 在 第 20 次 迭代 时 结果 变 为 零 ， 分 支 转移 不 成 功 ， 循 环 退 出 。 





PCy = 0 PCyy = 4 rr0= 12 
BC 开始 = 0; PCuy = 4, ro = 12 PC 开始 = 4 PCy = 8 rli = 14 
PCy = 4, PCyy = 8, rl= PCy = 8 PCyy = 12 42 5 -2 | 
PC 天 好 = 8, PCy = 12, r2 = 3 PCy =,12 PCyy = 16 8 
PCy = 12, PCy» = 24, PCy = 16 PCy, = 20 r0 = 32 £ 
PCy = 24, PCyy = 28, rO = 17 PCy = 20 PCa = 28 E 
PCy = 28, PCyy = 32, X = 17 PCy = 28 PCgy = 32 X = 32 多 
a) 情形 1 (转移 成 功 ) b) 情形 2 (转移 不 成 功 ) © 
图 3-7 条 件 执行 的 过 程 
LDR r0, #1 ; 把 1 放 入 寄存 器 rt0 (计数 器 ) 中 
LDR r1,#0 ; 把 0 放 入 寄存 器 上 1 CRORE) 中 
Next ADD ri, ripro ; 重复 : 当前 计数 值 与 部 分 和 相 加 
ADD r0,r0, #1 ; 计数 值 加 1 
CMP r0,#21 ; 20 个 数 是 否 都 已 加 完 
BNE Next ; 直到 : 完成 20 次 迭代 
STOP 车 完成 ， 则 停止 
下 面 将 深入 分 析 ARM Wb FH AE o 然而 ， 在 此 之 前 ， 需 要 更 详细 地 讨论 指令 集体 系 结构 


(ISA) 这 个 概念 。 


| SRS (再 次 讨论 ]) 

| 在 结束 有 关 分 支 的 讨论 之 前 ， 我 们 将 再 一 次 说 明 分 支 操作 是 如 何在 逻辑 层 实现 的 ， 
这 有 助 于 读者 理解 怎样 用 简单 的 逻辑 器 件 实现 计算 机 操作 。 下 图 展示 了 一 个 虚拟 的 分 支 
| 电路 。 粗 线 表示 16 或 者 更 多 的 程序 计数 器 位 ; 也 就 是 同时 有 16 个 或 者 更 多 的 多 路 选 
择 
| (条 件 分 支 的 本 质 、 程 序 计数 器 和 条 件 码 寄 存 器 的 作用 ， 以 及 硬件 和 软件 之 间 的 关系 )。 
| 程序 计数 器 要 么 从 增 量 器 (顺序 地 址 ) 要 么 从 当前 指令 的 分 支 地 址 字段 (分支 目标 地 址 ) 
| 获取 它 的 下 一 个 输入 。 程 序 计数 器 的 输入 由 多 路 选择 器 控制 。 

程序 计数 器 的 输入 多 路 选择 器 ， 是 由 指令 寄存 器 的 操作 码 字 段 控制 的 。 如 果 当 前 指 
| 令 是 条 件 分 支 ， 则 操作 码 字 段 中 的 一 位 将 使 能 一 个 两 输入 与 门 ， 这 个 与 门 控制 了 程序 计 
| 数 器 的 多 路 选择 器 。 当 与 门 的 输出 为 0 时， 程序 计数 器 的 输入 就 是 顺序 的 下 一 个 地 址 ; 
Paak 程序 计数 器 的 输入 就 是 分 支 目标 地 址 。 


eae 
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旨 令 的 第 二 个 字段 是 条 件 选 择 字段 ， 它 指明 了 分 支 转移 条 件 ， 即 为 零 时 转移 (Z 标 
志 )， 为 负 时 转移 (N)， 有 进位 时 转移 (C) 或 者 溢出 时 转移 (V)。 一 个 二 -四 译 码 器 把 
| 两 位 条 件 选 择 字 段 译 码 为 4 个 控制 信号 中 的 一 个 。 这 些 控 制 信号 被 送 入 一 企 四 输入 条 件 
多 路 选择 器 ， 它 会 从 条 件 码 寄存 器 中 选择 合适 的 位 ， 并 将 其 送 往 一 个 控制 多 路 选择 器 的 
| 与 门 < 
指令 寄存 器 





程序 计数 器 


杀 路 选择 器 


程序 计数 器 








为 1 则 选择 分 支 目标 地 址 
.为 0 则 选择 下 一 个 地 址 

选择 程序 计数 器 或 者 
分 支 目标 地 址 


为 1 则 选择 条 


条 件 多 路 选择 器 件 分 支 操作 







条 件 码 寄存 器 
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3.2 ISA 的 组 成 


在 详细 介绍 真正 的 微 处 理 器 之 前 ， 必 须 介 绍 一 下 ISA 的 3 个 组 成 部 分 : 寄存 器 集 、 寻 址 
方式 和 指令 格式 。 它 们 共同 定义 了 汇编 语言 程序 员 看 待 处 理 器 的 视角 。 实 际 上 有 两 个 汇编 语 
言 程 序 员 : 人 和 编译 器 。 编写 汇编 语言 程序 的 人 类 程序 员 要 么 是 正在 课堂 里 学 习 计 算 机 体系 
结构 的 学 生 ， 要么 是 正在 编写 计算 机 代码 或 者 正在 汇编 语言 级 进行 系统 调试 的 专家 。 绝 大 多 
数 低级 或 机 器 代码 由 编译 器 自动 生成 ， 编 译 器 把 高 级 语言 翻译 为 低级 或 机 器 代码 。 

人 与 编译 器 的 区 别 对 于 计算 机 指令 集 设 计 来 说 十 分 重要 。 高 效 地 使 用 汇编 语言 ， 人 们 可 
以 编写 出 很 短 的 代码 。 人 类 有 智慧 ， 善 于 发 明和 创造 。 人 们 可 以 充分 利用 机 器 指令 集 编写 出 
相当 紧凑 或 高 效 的 代码 。 但 用 这 种 方法 编写 大 型 程序 非常 困难 。 而 且 ， 一 个 人 使 用 精妙 的 设 
计 技 巧 编 出 的 汇编 语言 代码 对 于 另外 一 个 人 来 说 通常 是 很 难 理解 并 且 不 可 读 的 。 人 们 编写 的 
高 级 语言 代码 比 低级 语言 代码 更 加 有 效 、 更 加 可 靠 。 因 此 ， 如 今世 界 上 多 数 程序 员 都 使 用 高 
级 语言 编程 ， 然 后 由 编译 吉 产 生机 器 代码 。 

编译 器 能 够 自动 地 将 高 级 语言 程序 生成 机 器 代码 。 但 它们 的 代码 自动 转换 方法 在 利用 机 
器 特性 方面 还 往往 很 低 效 。 尽 管 计算 机 体系 结构 可 能 设计 出 一 条 非常 巧妙 的 机 器 指令 ， 但 编 
译 器 却 永远 不 会 用 到 它 。 编 译 器 还 无 法 挖掘 出 处 理 器 的 所 有 特性 。 一 个 对 人 们 来 说 很 好 的 体 
系 结构 对 编译 器 而 言 并 不 一 定 优秀 。 在 20 世纪 70 时 代 和 80 时 代 微 处 理 器 开始 发 展 时 ， 制 
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造 商 曾 设计 出 一 些 令 人 感 兴 趣 的 机 器 指令 ,但 从 编译 器 的 输出 可 以 看 出 它们 完全 没有 用 。 这 
一 观察 结果 成 为 20 世纪 80 年 代 所 谓 的 RISC 革命 背后 的 驱动 力 之 一 。 


3.2.1 寄存 器 


从 概念 上 来 看 ， 寄 存 器 是 计算 机 中 最 没有 用 的 一 部 分 。 它 甚至 是 没有 必要 的 ， 也 不 参与 
任何 计算 。 实 际 上 ，20 世纪 70 时 代 的 有 些微 处 理 器 根本 没有 片上 寄存 器 ; 它 仅仅 是 用 一 组 
存储 单元 作为 寄存 器 。 片 内 的 一 个 指针 寄存 器 保存 了 存储 器 中 寄存 器 的 地 址 。 然 而 ， 寄 存 器 
对 于 提高 计算 机 性 能 和 实际 指令 集 设计 是 很 有 必要 的 。 

可 以 设计 一 条 形 如 app p = o + R 的 计算 机 指令 , 这 里 PP、Q 和 RR 都 是 存储 地 址 。 假 设 
操作 码 为 16 位 ( ADD 部 分 )， 地 址 空间 为 32 位 ， 则 这 条 指令 的 长 度 为 16 + 32 + 32 + 32 = 
112 位 ， 如 图 3-8a 所 示 。 典 型 的 真实 计算 机 的 指令 长 度 为 16 位 或 32 位 ， 所 以 112 位 的 指令 
长 度 一 般 是 不 可 行 的 。 而 且 访 存 也 会 是 个 问题 ， 因 为 从 CPU 发 出 32 位 地 址 送 到 指定 的 存储 
芯片 上 ， 还 要 进行 一 定 的 逻辑 处 理 ( 称 为 地 址 译 码 )。 存 储 单元 的 访问 时 间 也 比 片上 寄存 器 
的 访问 时 间 长 很 多 ， 理 解 这 一 点 也 是 非常 重要 的 。 一 般 来 说 ，CPU 寄存 器 内 可 直接 访问 的 
数据 越 多 ， 处 理 器 的 速度 就 越 快 。 

实际 计算 机 用 寄存 器 实现 片上 存储 ， 寄 在 器 的 功能 与 存储 单元 一 样 ， 唯 一 的 区 别 在 于 访 
问 的 便捷 性 和 响应 时 间 。 仅 需 很 少 的 指令 位 就 可 以 指定 一 个 片上 寄存 器 。 例 如 ， 某 计算 机 的 
操作 码 为 8 位 ， 带 有 8 个 片上 寄存 器 (用 3 位 就 可 访问 r0, rl, r2,…, r7 中 的 一 个 )， 就 能 用 
8+3+3+3=17 位 实现 指令 app P = Q + R。 图 3-8b 给 出 了 一 个 更 切合 实际 的 例子 ， 某 计 
算 机 有 3 个 5 位 操作 数 地 址 字段 ， 可 以 寻 址 32 个 寄存 器 。32 位 指令 字 中 余下 的 17 位 用 于 
指令 操作 码 和 额外 的 控制 字段 。 











= 112 位 
16 位 „. 32 位 .， 32 位 ,.， 32 位 
操作 码 县 的 地 址 源 地 址 1 源 地 址 2 
a) 带 有 3 个 地 址 域 的 假想 指令 格式 = 
32 {i È 
17 位 5 位 5 位 5 位 § 
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控制 位 目的 地 址 ， 源 地 址 1 源 地址 2 


b) 带 有 寄存 器 一 寄存 器 结构 的 假想 指令 格式 
图 3-8 ”操作 数 地 址 宽度 图 解 


由 于 计算 机 中 只 带 有 少量 的 片 内 寄存 器 ， 因 此 有 必要 通过 将 数据 载 人 寄存 器 的 指令 和 
将 寄存 器 中 数据 存 信 存储 器 的 指令 在 内 存 和 寄存 器 之 间 传 递 数据 (前 面 已 经 使 用 了 LDR 
和 STR 操作 )。 所 有 数据 处 理 操作 都 只 能 针对 寄存 器 的 内 容 ， 这 类 计算 机 叫 作 载 人 和 存储 
(load-store) 计算 机 ， 它 表明 对 存储 器 进行 的 操作 只 能 是 将 数据 传送 到 寄存 器 中 或 者 从 寄存 
器 中 取出 数据 。 这 些 计 算 机 总 是 被 归于 RISC 一 类 。 

寄存 器 的 大 小 ( 它 的 位 宽 ) 通常 等 于 计算 机 完成 的 数据 处 理 操作 的 最 大 位 宽 。 例 如 ，16 
位 计算 机 的 寄存 器 为 16 位 ， 这 样 可 以 用 一 个 操作 完成 两 个 16 位 数 的 加 法 。 

有 些 计 算 机 允许 对 寄存 器 的 部 分 内 容 (TE) 进行 操作 。 例 如 ，32 位 寄存 器 包含 4 个 字 
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节 ABCD， 对 该 寄存 器 进行 的 16 位 操作 只 处 理 字 节 C 和 D， 而 保持 字 节 A 和 B 不 变 。 

一 些 寄 存 器 将 其 内 容 作 为 二 进 制 补 码 处 理 ， 对 寄存 器 部 分 内 容 进 行 操作 的 结果 被 符号 扩 
展 到 整个 字 。 例 如 寄存 器 rl WEA 12345678,,, + 00002122,, 进行 16 位 有 符号 数 加 法 的 结 
果 为 0000779Ais。 然 而 ， 如 果 将 12345678, 与 0000312216 相 加 ， 结 果 却 是 FFFF879A,,, Al 
为 负 的 16 位 有 符号 数 经 过 符号 扩展 会 得 到 一 个 负 的 32 位 有 符号 数 。 下 面 来 验证 一 下 这 个 结 
果 的 正确 性 。 初 始 值 12345678,s 被 转换 为 16 位 进行 加 法 运算 ， 即 56786 KES 16 位 值 
3122, 相 加 ， 可 得 567816 + 312216 = 879Ais。 由 于 它 的 二 进 制 表示 为 1000011110011010,， 最 
高 位 为 1， 它 将 被 符号 扩展 为 32 位 数 11111111111111111000011110011010, = FFFF879A 60 
图 3-9 说 明了 对 寄存 器 部 分 内 容 进行 操作 的 一 些 可 能 的 结果 。 


本 用 位 修改 的 数 
RER «sd ark. 


容 上 





b) 最 简单 的 处 理 ( 由 
pressi 68K 实现 ) 是 未 参与 操作 的 
位 不 变 
O 某 此 处理 器 对 寄存 器 
00 000 TETE 部 分 内 容 进行 操作 ， 然 后 把 = 
CSREES 
d) 如 果 寄 存 器 中 的 数据 
ok ae 是 一 个 带 符号 的 整数 ， 操 作 
后 其 会 符号 扩展 到 32 位 
图 3.9 对 寄存 器 部 分 内 容 的 操作 


通用 寄存 器 vs 特殊 功能 寄存 器 

8086 所 用 的 IA32 体系 结构 使 用 了 一 组 特定 的 16 位 寄存 器 ， 叫 作 AX. BX, CX 和 
DX， 每 个 寄存 器 可 被 分 解 为 一 对 寄存 器 (例如 AH 和 AL)， 用 作 字 节 寄 存 器 。 它 还 有 4 个 
变 址 (指针 ) 寄存 器 和 4 个 段 寄 存 器 〈 用 于 打破 因 16 位 指针 寄存 器 导致 的 64K 页 大 小 限制 )。 
需要 强调 的 是 ，8086 的 寄存 器 都 是 高 度 专用 的 ， 程 序 员 必 须 记 住 每 个 寄存 器 能 做 什么 以 及 
哪 条 指令 使 用 哪个 寄存 器 。 例 如 ， 寄 存 器 C 是 专用 的 计数 寄存 器 。8086 寄存 器 结构 之 所 以 
这 样 ， 是 为 了 确保 与 Intel 早期 的 8 位 处 理 器 8080 保持 足够 兼容 。 即 便 如 此 ， 兼 容 性 还 是 比 
较 差 ， 因 为 8080 代码 不 能 在 8086 上 运行 。 但 是 ， 由 于 存在 一 定 的 相似 度 ， 可 以 预见 自动 把 
8080 代码 映射 到 8086 体系 结构 上 是 很 容易 的 。 

提供 特殊 功能 寄存 器 意味 着 无 需 在 指令 字 中 分 配 一 些 位 去 指明 它 的 用 途 。 例 如 ， 如 果 寄 
存 器 被 定义 为 计数 器 ， 那 么 增加 计数 值 的 指令 就 可 以 不 需要 寄存 器 地 址 ， 因 为 计数 器 已 经 与 
指令 绑 定 在 一 起 。 使 用 专用 寄存 器 会 使 代码 更 加 紧凑 ， 这 在 微 处 理 器 发 展 的 早期 是 一 个 非常 
重要 的 特性 ， 因 为 早期 存储 器 的 价格 是 现在 的 数 百 万 倍 。 是 的 ， 数 百 万 倍 ! 

Motorola ® , Intel 曾经 的 竞争 对 手 ， 在 8086 之 后 不 久 就 研发 了 68K 处 理 器 。 这 是 一 个 使 
用 32 位 寄存 器 的 32 位 处 理 器 。Motorola 采用 了 不 同 于 Intel 的 寄存 器 结构 ， 它 使 用 通用 寄 
存 器 ,包括 8 个 数据 寄存 器 D0 ~ D7 和 8 个 地 址 (指针 ) 寄存 器 AO ~ A7。 所 有 寄存 器 都 


© Motorola 在 2004 年 把 它 的 半导体 产品 部 门 重新 命名 ， 所 以 现在 是 指 Freescale 处 理 器 而 不 是 Motorola 处 
PERS. 
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可 以 互 换 使 用 ， 比 如 对 DO 进行 的 所 有 操作 都 可 以 用 于 D1， 等 等 。 当 然 ， 采 用 这 种 方法 意 
味 着 所 有 基于 寄存 器 的 指令 都 需要 3 位 寄存 器 选择 字段 以 区 分 寄存 器 {D0, D1, D2, =, D7}. 
请 注意 Motorola 在 区 分 数据 和 地 址 寄存 器 时 有 些 麻烦 一 一 像 ARM 那样 的 RISC 处 理 器 一 般 
不 采用 这 种 方式 ， 这 一 点 也 很 有 趣 。 但 这 是 一 个 很 有 争议 的 做 法 ， 在 当时 引起 了 大 量 的 争 
论 。 有 些 人 不 喜欢 AO 只 能 保存 一 个 地 址 ， 他 们 反对 这 一 做 法 ， 认 为 将 数据 和 地 址 寄存 器 分 
开 效 率 会 很 低 ， 比 如 在 有 12 个 数据 元 素 和 4 个 地 址 时 。 另 一 方面 ， 它 允许 指令 以 恰当 的 方 
式 处 理 地 址 和 数据 值 。 例 如 ， 地 址 寄存 器 上 的 算术 运算 总 会 将 结果 符号 扩展 为 32 位 ， 因 为 
地 址 是 单个 实体 而 数据 可 被 划分 为 多 个 字段 。 这 两 种 方法 各 有 优点 ， 但 是 通用 的 方法 已 经 占 
据 了 上 风 。 

ARM 有 16 个 通用 寄存 器 r0 一 r15。 寄 存 器 r0 一 rl3 可 互 换 使 用 ， 行 为 相似 。 寄 存 咒 
114 All r15 还 有 额外 的 功能 (r14 为 链接 寄存 器 ， 保 存 子 程序 返回 地 址 ; r15 为 程序 计数 器 )。 
尽管 人 们 希望 能 自由 地 使 用 寄存 器 r13， 但 良好 的 编程 实践 却 要 求 保 留 r13 以 使 用 栈 指针 。 


3.2.2” 寻 址 方式 概述 


指令 对 数据 进行 操作 ， 并 且 必 须 将 数据 移动 到 其 被 处 理 的 地 方 。 指 定数 据 的 方式 统称 为 

“ 导 址 方式 ”。 尽 管 有 许多 变种 ， 但 原则 上 一 共有 3 种 基本 的 寻 址 方式 。 这 3 种 基本 寻 址 方式 为 : 
Co 立即 数 寻 址 ; 

e 直接 寻 址 ; 

e 间接 寻 址 。 

读者 在 前 面 已 经 见 到 过 这 些 寻 址 方式 。 最 简单 的 寻 址 形式 是 立即 数 寻 址 (literal 
addressing)， 其 操作 数 是 指令 的 一 部 分 。 请 考虑 操作 已 = 0 + 5， 这 里 的 5 就 是 立即 操作 数 ， 
因为 它 是 组 成 指令 的 一 部 分 ; 也 就 是 说 ， 由 于 它 是 指令 的 一 部 分 ， 它 没有 被 保存 在 存储 单元 
或 者 寄存 器 中 ， 而 成 为 指令 的 组 成 部 分 。 立 即 数 寻 址 意味 着 操作 数 为 常数 ， 它 的 值 不 能 在 程 
序 执行 过 程 中 改变 。 操 作 已 = O + 5 总 是 将 5 加 到 CO 上 。92 的 值 可 以 改变 ， 而 常数 $ 永远 不 
会 改变 。 

这 种 寻 址 方式 也 叫 作 立即 寻 址 (immediate addressing)， 因 为 操作 数 立即 可 用 (无 需 从 寄 
存 器 或 存储 器 读 取 )。 计 算 机 也 会 使 用 立即 数 寻 址 来 设置 在 程序 执行 过 程 中 不 会 改变 的 常量 
(例如 循环 计数 值 或 计数 范围 )。 

正如 读者 已 经 看 到 的 ， ARM 处 理 器 使 用 前 缀 # 指定 立即 操作 数 。 例 如 ， 指 令 ADD 
r1,r2,#5 完成 了 操作 [r1] 二 [r2] +5. 

第 二 种 寻 址 方式 是 直接 寻 址 (direct addressing)， 也 称 作 绝对 寻 址 。 这 种 寻 址 方式 是 把 
操作 数 地 址 用 作 指 令 的 一 部 分 。 例 如 ,指令 ADD P,Q,R 表示 将 存储 单元 0 的 内 容 与 存储 单 
元 R 的 内 容 相 加 ， 并 将 结果 保存 在 存储 单元 P 中 。 

你 也 许 会 认为 直接 寻 址 是 存储 程序 ( 汉 : 诺 依 曼 ) 计算 机 的 基本 寻 址 方式 ， 存 储 程序 计 
算 机 会 在 取 指 阶段 读 出 指令 ,在 执行 阶段 从 存储 器 中 读 出 指令 指定 的 操作 数 并 执行 指令 。 直 
接 寻 址 方式 在 CISC 计算 机 上 得 到 了 广泛 使 用 ， 比 如 Intel IA32 (例如 Pentium) 或 68K 系 
列 。 例 如 ，IA32 指令 mov ax,[2468h] 把 存储 单元 2468, 的 内 容 复制 到 寄存 器 ax Po EFE, 
Freescale 68K 指令 ADD 1234,D2 将 存储 单元 1234 的 内 容 加 到 寄存 器 D2 上 。 请 注意 Intel 
和 Freescale 的 汇编 指令 格式 在 以 下 几 个 方面 有 差别 : 寄存 器 名 、 操 作 数 次 序 、 指 定 直 接地 
址 的 方式 。 不 幸 的 是 ， 从 来 就 没有 标准 的 汇编 指令 格式 。 
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Load-store 型 计算 机 ， 比 如 ARM， 没 有 实现 直接 寻 址 。 所 有 存储 器 操作 数 要 么 被 指定 
为 立即 数 ， 要 么 通过 寄存 器 指针 间接 指定 。 

第 三 种 寻 址 方式 有 许多 名 称 说 ， 叫 作 和 寄存 器 间 . 
接 寻 址 。 在 寄存 器 间接 寻 址 中 ， 指 令 中 给 出 了 包含 操作 数 地 址 的 寄存 器 的 地 址 。 如 前 所 述 ， 





获得 一 个 操作 数 需 要 3 次 访问 : 读 指令 ， 读 含有 操 AR, WIS BEA SE BRAY 
操作 数 。 


含有 操作 数 地 址 的 寄存 器 称 作 指针 寄存 器 。Load-store 型 计算 机 (比如 ARM)， 使 用 这 
种 寻 址 方式 访问 存储 器 操作 数 。 例 如 ，ARM 指令 LDR r1,[r2] 表示 将 寄存 器 r2 所 指 的 存储 
单元 的 内 容 加 载 到 寄存 器 rl 中 。 以 下 分 别 是 ARM, Intel IA32 和 Freescale 68K 的 汇编 语言 


语句 : 
LDR ri, [£2] ; 将 寄存 器 r2 所 指 存储 单元 的 内 容 复 制 到 寄存 器 rl1 中 
MOV ax, [bx] ; 将 寄存 器 bx 所 指 存储 单元 的 内 容 复 制 到 寄存 器 ax 中 
MOVE (A5) ,D2 ; 将 寄存 器 AS 所 指 内 存单 元 的 内 容 复制 到 寄存 器 D2 中 


寄存 器 间接 寻 址 对 访问 表格 和 数组 非常 有 用 ， 因 为 它 可 以 操作 指针 寄存 器 访问 数组 
寄存 器 间接 寻 址 有 许多 变种 。 最 常用 的 格式 是 带 偏 移 量 的 寄存 器 间接 寻 址 ， 其 中 操作 数 
的 地 址 由 寄存 带 内 容 加 上 常量 或 者 偏 移 量 指定 。 这 一 寻 址 方式 的 典型 格式 如 下 : 


LDR r2, [r3,#8] ; 把 寄存 器 r3+8 所 指 存储 单元 的 内 容 复制 到 寄存 器 r2 中 
MOV ax,[12,bx] ; #4 

存 器 bx+12 所 指 存储 单元 的 内 容 复 制 到 寄 10 

存 器 ax 中 es me. 
MOVE (16,A5),D2 ; 把 寄 


存 器 R5+16 所 指 存储 单元 的 内 容 复制 到 寄 ARM 不 直接 支持 这 种 寻 址 方式 


存 器 D2 中 ABE r0 绝对 地 址 
LDR r0, ABC 
这 一 寻 址 方式 带 有 一 个 立即 数 : 


常量 ， 它 在 编写 程序 的 时 候 就 已 经 
确定 。 带 偏 移 量 的 寄存 器 间接 寻 址 
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寄存 器 间接 地 址 
允许 使 用 指针 指向 数据 区 的 基地 址 ， LDR r0, [r1] 
而 用 偏 移 量 指明 数组 中 给 定 的 元 素 。 

图 3-10 描述 了 这 些 寻 址 方式 的 处 理 图 3-10 各 类 寻 址 方式 的 过 程 
过 程 。 
程序 计数 器 相对 寻 址 


寄存 器 间接 寻 址 使 我 们 可 以 通过 寄存 器 来 指定 操作 数 的 地 址 。 例 如 ， 指令 LDR 
r0,[rl,#16] 表明 操作 数 地 址 相对 rl 有 16 个 字 节 的 正 偏 移 。 现 在 ,假定 使 用 r15， 即 PC, 
来 产生 地 址 ， 并 将 指令 写 为 LDR r0,[PC,#16]。 此 时 操作 数 地 址 相对 于 PC 的 偏 移 量 为 
16 字 节 或 相对 于 当前 指令 的 偏 移 量 为 8+ 16 = 24 字 节 。( ARM 的 PC 总 是 当前 指令 地 址 
+8， 因 为 一 种 叫 作 流水 线 的 机 制 ， 总 会 在 执行 当前 指令 时 自动 读 取 下 一 条 指令 )。 

在 程序 计数 器 相对 寻 址 中 使 用 PC 的 能 力 是 ARM 体系 结构 的 重要 特征 。 CRF 
过 正在 访问 操作 数 的 程序 来 生成 操作 数 的 地 址 。 即使 将 程序 和 数据 重新 定位 到 存储 器 中 
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”的 另 一 个 位 置 ， 但 是 相对 的 地 址 偏 移 量 是 不 会 改变 的 。 我 们 会 发 现 程序 计数 器 相对 寻 址 
是 ARM RM BRA ies RE a2 位 常量 的 基础 。 


存储 器 与 寄存 器 寻 址 

前 面 已 经 指出 ， 寄 存 器 与 存储 单元 之 间 没 有 本 质 区 别 。 其 区 别 主 要 体现 在 它们 的 相对 访 
问 速度 以 及 指定 一 个 寄存 器 和 一 个 存储 单元 所 需 的 地 址 位 数 上 。 在 实践 中 ， 这 意味 着 8 位 计 
算 机 时 代 计 算 机 指令 不 能 实现 较 长 的 存储 器 地 址 。 若 没有 意外 ， 一 条 指令 仅 能 提供 一 个 存储 
器 地 址 。 

由 此 可 以 推出 ， 这 些 计算 机 不 支持 存储 器 -存储 器 型 操作 ( 即 源 操作 数 和 目的 操作 数 都 
在 存储 右 中 )。 因 此 ， 微 处 理 器 一 般 提 供 3 种 指令 模式 : 

存储 器 一 寄存 器 型 : 源 操作 数 在 存储 器 中 ， 目 的 操作 数 在 寄存 器 中 ; 

寄存 器 - 存储 器 型 : 源 操作 数 在 寄存 器 中 ， 目 的 操作 数 在 存储 器 中 ; 

寄存 器 - 寄存 器 型 : 两 个 操作 数 都 在 寄存 器 中 。 

Freescale 68K 确实 支持 存储 器 -存储 器 型 操作 ( 仅 支 持 MOVE 指令 )， 这 时 源 操作 数 和 
目的 操作 数 都 在 内 存 中 。 这 条 指令 长 10 个 字 节 ( 80 位 )， 因 为 它 需要 在 16 位 指令 字 后 跟 两 
个 32 位 的 地 址 。 


3.2.3 ”指令 格式 


体系 结构 就 是 计算 机 指令 本 身 ， 这 是 指令 集 的 重点 所 在 。 指 令 指明 了 下 一 步 要 执行 的 操 
作 一 一 尽管 以 后 会 发 现 一 些 像 Itanium (IA 64) 系列 那样 的 处 理 器 中 有 些 指 令 会 指定 多 个 操 
作 。 因 为 是 简单 介绍 ， 所 以 这 里 仅 考 虑 指令 长 为 一 个 字 的 情形 ， 它 指定 了 要 执行 的 操作 以 及 
其 他 额外 信息 ( 即 立即 数 、 寄 存 器 或 地 址 )。 

RISC 计算 机 ， 比 如 ARM 和 MIPS， 其 指令 受到 了 严格 限制 ; 指令 长 度 必须 规整 为 一 
字 。 如 果 计 算 机 字 长 为 32 位 且 和 寄存 器 也 是 32 位 ， 则 其 指令 字 长 为 32 位 宽 。 因 此 ， 指 令 集 
设计 者 受到 指令 字 长 的 约束 。CISC 计算 机 通过 允许 指令 长 度 扩展 为 几 个 字 解 决 了 固定 指令 
长 度 的 问题 。 例 如 ，68K 处 理 器 使 用 5 个 16 位 字 存 放 一 个 操作 码 (16 位 )、 一 个 源 地 址 (32 
位 ) 和 一 个 目的 地 址 (32 位 )。 下 一 章 将 讨论 多 字 长 指令 。 必 须 指出 多 个 字 长 指令 给 计算 机 
设计 者 带 来 了 巨大 的 挑战 。 本 章 只 考虑 固定 字 长 计算 机 。 

下 面 来 看 一 个 例子 ， 设 计 者 决定 某 32 位 处 理 器 中 的 所 有 指令 都 包含 3 个 字段 ， 指 令 格 
式 为 : 操作 ， 立 即 数 ， 存 储 单元 位 置 。 现 在 假设 设计 者 决定 立即 数 的 范围 为 0 一 900， 存 储 
器 大 小 为 250 000 个 单元 。 请 问 采取 这 种 安排 能 够 实现 多 少 条 独立 的 指令 ? 

立即 数 需 要 10 位 编码 ， 因 为 2 ”>900>2”?， 而 存储 器 操作 数 需 要 18 位 ， 因 为 2"*> 
et ee yi eres dll ete 因 

此 ， 该 计算 机 的 指令 集 仅 能 包含 2 = 16 个 操作 。 这 个 例子 说 明 应 该 在 指令 (操作 码 ) 数量 、 
ea 
少 其 他 字段 的 范围 。 

计算 机 设计 的 历史 中 充斥 着 各 种 试图 打破 这 一 约束 的 尝试 ， 即 操作 码 位 数 十 操作 数位 数 = 
计算 机 字 长 。 然 而 ， 这 个 例子 还 说 明了 “一 点 点 创造 力 就 会 大 有 帮助 ”。 记 得 前 面 曾 说 过 立 
即 数 的 范围 为 0 一 900。 使 用 一 个 10 位 的 字段 可 以 编码 范围 为 0 一 1023 (0 到 2"-1) 内 的 
立即 数 。 因 此 ， 从 901 到 1023 之 间 的 123 个 立即 值 可 以 分 配给 新 的 指令 。 当 然 ， 这 些 新 指 
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3.2.4 操作 码 与 指令 


可 以 用 几 种 方法 将 指令 分 组 或 者 分 类 。 计 算 机 体系 结构 设计 中 最 重要 的 一 个 因素 是 每 条 
指令 中 操作 数 地 址 的 数量 。 例 如 ， 实 现 了 指令 ADD r1,r2,r3 的 指令 集 是 三 地 址 计算 机 ， 而 实 
现 了 ADD 11,12 指令 的 计算 机 是 双 地 址 的 。 在 此 主要 介绍 三 地 址 、 双 地 址 、 单 地 址 与 零 地 址 
的 计算 机 。 也 可 以 按照 操作 的 性 质 来 将 指令 分 组 。 例 如 ， 数 据 移 动 指令 把 数据 从 一 个 地 方 移 
到 另 一 个 地 方 ; 数据 处 理 指令 进行 数据 运算 ， 而 流 控制 指令 修改 指令 执行 的 顺序 。 

请 考虑 下 面 的 例子 ， 指 令 带 有 0 ~ 3 个 操作 数 。 在 这 些 例子 中 ， 操 作 数 P、C、&R 是 存 
储 单元 或 寄存 器 。 


完成 那些 不 需要 立即 数 的 操作 。 如 果 说 “天 下 没有 免费 的 午餐 ”， 那 么 在 指令 集 设 计 
是 如 此 。 


操作 数 指令 作用 

3 个 ADD P,Q,R OF RHm, BRAKE PH 

2* ADD P,Q O5 Piim, RARE PH 

1 个 ADD P 书 与 累加 器 相 加 ， 结 果 存 放 在 累加 器 中 

0 个 ADD 从 栈 顶 弹出 两 个 数 相 加 ， 结 果 放 在 栈 顶 

一 条 三 地 址 指令 可 写 为 : operation 内 存 
destination, sourcel,source2, 这 里 
operation 定义 了 指令 的 性 质 ，sourcel 是 第 A 
一 个 源 操作 数 的 地 址 ，source2 是 第 二 个 源 
操作 数 的 地 址 ， 而 destination 则 是 存放 结果 寄存 器 


的 地 址 。 前 面 已 经 解释 过 微 处 理 器 不 实现 三 ales 
存储 器 地 址 指令 的 原因 。 一 个 典型 RISC 处 
理 器 可 以 通过 3 个 5 位 的 操作 数 地 址 字段 在 
nig 中 指定 3 个 寄存 器 地 址 ， 如 图 3-11 所 

Ko OREHE ADD 指令 将 寄存 器 尼 、 
"i r4 和 r5 中 的 4 个 值 相 加 ， 下 面 就 是 典 
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型 RISC 处 理 器 (比如 ARM) 的 代码 。 = 
ADD rl1l,r2,r3 wl =12+13 图 3-11 三 地 址 指令 
ADD ril rir wl=rl+r4 
ADD fri1,ri,r5 wl=rl+1r5=124134+1r441r5 


1. 双 地 址 计算 机 

CISC 计算 机 ( 像 Pentium 或 68K) 采用 双 地 址 指令 格式 。 明 确 地 说 ， 不 能 仅 用 两 个 操作 
数 就 完成 指令 P= O +R, 但 可 以 执行 操作 O P+ O。 有 个 操作 数 出 现 了 两 次 : 第 一 次 作 
为 源 操 作 数 ， 第 二 次 作为 目的 操作 数 。 操 作 ADD P,Q 执行 运算 [0] 二 [P]+[O]。 双 操作 数 指 
令 格式 的 代价 是 一 个 源 操作 数 的 内 容 会 因为 覆 写 而 遭 到 破坏 。 绝 大 多 数 计 算 机 指令 不 能 直接 
访问 两 个 存储 单元 。 典 型 情况 下 ， 操 作 数 要 么 是 两 个 寄存 器 ， 要 么 是 一 个 寄存 器 和 一 个 存储 
单元 。 例 如 ，68K 的 ADD 指令 可 以 写成 


O ARM 有 16 个 通用 寄存 器 (实际 上 rl3、rl4 Aris 带 有 特殊 功能 ，rl3 被 保留 用 作 栈 指针 )。ARM 的 指令 集 
比 一 些 RISC 处 理 器 丰富 得 多 ， 精 简 了 寄存 器 的 数量 ， 以 便 为 操作 码 提 供 更 多 的 位 数 。 


HS RTL 定义 模式 

ADD D0,D1 [D1] — [D1]+[D0] 寄存 器 - 寄存 器 
ADD P,D2 [D1] — [D1]+#[P] 存储 器 -寄存 器 
ADD D7,P [P] + [P] +[D7] 寄存 器 -存储 器 


2. 单 地 址 计算 机 
单 地 址 计算 机 在 指令 中 仅 指定 了 一 个 操作 数 。 第 二 个 操作 数 是 一 个 叫 累 加 器 的 固定 寄存 
， 它 无 需 指定 。 例 如 ， 单 地 址 指令 ADD P 意味 着 [A] [AHP]. 符号 [4] 指 累加 器 的 内 
o WAHE R= P + 0 可 以 由 以 下 第 一 代 八 位 6800 处 理 器 上 的 8 位 代码 段 来 实现 。 
LDA P ; 把 尸 加 载 到 累加 器 中 
ADD Q ;2 与 累加 器 相 加 
sta R :将 累加 器 的 值 保 存 到 R 
八 位 计算 机 采用 单 地 址 结构 。 可 以 想象 ，8 位 代码 是 很 元 长 的 ， 因 为 必须 将 数据 加 载 到 
累加 器 中 进行 处 理 ， 然 后 把 结果 存放 起 来 以 避免 被 下 一 条 数据 处 理 指令 覆盖。 目前 单 地 址 计 
算 机 仍 被 广泛 地 应 用 于 超 低 功 耗 、 低 性 能 的 系统 中 ， 比如 玩具 。 

3. 零 地 址 计算 机 

零 地 址 计算 机 使 用 根本 没有 地 址 的 指令 。 零 地 址 计算 机 对 位 于 栈 项 的 数据 进行 处 理 ， 因 
此 通常 也 被 称 做 栈 计算 机 。 当 然 ， 一 个 纯粹 的 零 地 址 计算 机 是 不 实用 的 。 需 要 通过 load 和 
store 指令 从 存储 器 中 读 出 数据 或 把 数据 保存 到 存储 器 中 。 

ao ee ordre inet 
运算 〈 二 元 运算 ， 如 加 、 乘 、 逻 辑 或 ) 首先 从 栈 顶 取出 两 个 元 素 ， 进 行 运算 ， 然 后 将 结 
栈 。 将 一 个 数据 放 到 栈 顶 的 操作 叫 作 入 栈 (PUSH)， 而 从 栈 顶 取出 一 eh 
(POP)。 用 于 计算 表达 式 Z= (4 + 8): (C - D) 的 代码 可 写 为 : 


Wy 3E 


PUSH A ; AAR 

PUSH B ; BAR 

ADD ; 栈 顶 两 个 数据 出 栈 ， 相 加 ， 然 后 结 果 ABAR 

PUSH C ; CAR 

PUSH D ; DAR 

SUB ; 栈 顶 两 个 数据 出 栈 ， 相 减 ， 然 后 结果 C-BD 入 栈 

MUL ; 栈 顶 两 个 数据 出 栈 ， 相 乘 ， 然 后 结果 入 栈 , 即 (A + B)» (C - D) 
POPZ ; 栈 顶 数据 出 栈 (结果 ) 


栈 计算 机 还 能 处 理 布尔 逻辑 。 请 考虑 操作 if (A < B) or (C= D)。 该 表达 式 生 成 的 结果 为 
布尔 类 型 一 一 true 或 false。 它 可 用 以 下 代码 实现 : 


PUSH A ; AAR 

PUSH B ; BAK 

LT ; 入 和 BB 出 栈 并 进行 比较 ; 然后 根据 结果 将 true 或 false AK 
PUSH Cc ; CAR 

PUSH D ; DAR 

EQ ; CH DHRHMALAZEWE; 将 true Ñ false Atè 
OR ; 把 栈 顶 的 两 个 结果 出 栈 (布尔 值 ); 进行 或 运算 并 将 结果 入 栈 


栈 顶 的 布尔 值 可 以 与 为 真 时 分 支 或 为 假 时 分 支 命令 一 起 使 用 ， 就 像 其 他 计算 机 一 样 。 
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除了 常规 数据 处 理 运算 外 ， 堆 地 址 计算 机 也 包括 使 堆栈 编程 更 加 方便 的 数据 控制 运算 。 
例如 ， 支 持 栈 顶 数据 项 复制 或 者 栈 顶 两 个 数据 项 交换 的 指令 。 

1980 年 ， 查 尔 斯 * 摩尔 (Charles cane 发 明了 基于 栈 的 编程 语言 Forth， 主 要 用 于 控 
制 应 用 (例如 望远镜 、 机 器 人 等 等 )。 高 级 语言 Java 被 编译 成 一 种 低级 的 基于 栈 的 语言 ， 叫 
作 字 节 码 (bytecode)， 并 在 真实 计算 机 [上 解释 执行 。 有 些 ARM 处 理 器 集成 了 Jazelle 
节 码 执行 (Direct Bytecode eXecution，DBX)， 能 够 直接 执行 字 节 码 。 由 硬件 直接 执行 字 
码 (而 不 是 解释 执行 ) 提高 了 ARM 运行 Java 应 用 时 的 性 能 。 

4. 一 个 半 地 址 计算 机 

Intel IA32 系列 与 Freescale 系列 通 篆 叫 作 一 个 半 地 址 计算 机 ， 这 是 因为 它们 的 指令 指定 
了 两 个 操作 数 ， 一 个 操作 数 是 存储 器 地 址 ， 另 外 一 个 操作 数 则 是 寄存 器 地 址 。 寄 存 器 地 址 
被 讽刺 地 称 为 半 个 地 址 ， 因 为 与 GB 量 级 的 存储 空间 相 比 ， 寄 存 器 的 数量 很 少 。 以 下 的 68K 
代码 说 明了 表达 式 (4 +B) (C - D) 的 计算 过 程 : 


MOVE A,DO ; 将 又 从 存储 器 加 载 到 寄存 器 DO 中 
ADD B,DO ; 将 存储 单元 妃 的 值 加 到 寄存 器 DO 上 
MOVE C,D1 ; 把 C 从 存储 器 加 载 到 寄存 器 D1 中 
SUB D, D1 ; 从 寄存 器 D1 MARRY D NE 
MULU D0,D1 ; 寄存 器 D1 乘 以 寄存 器 D0 

MOVE D1,X ; 把 寄存 器 D1 保存 到 存储 单元 X 
将 它 与 下 面 基于 累加 器 的 单 地 址 计算 机 代码 进行 比较 : 
LDA A ; 将 又 从 存储 器 加 载 到 累加 器 中 

ADD B ; 将 存储 器 变量 马 加 到 累加 器 上 

STA P ; 把 累加 器 的 值 保存 到 存储 单元 P 
LDA C ; 将 C 从 存储 器 加 载 到 累加 器 中 

SUB D ; 累加 器 减 去 存储 单元 D HE 

MUL P ; 累加 器 乘 以 存储 单元 P HE 

STA X ; Rms aR aS BX 


现在 已 经 介绍 了 处 理 器 的 基本 结构 以 及 ISA 的 基本 组 成 ， 下 面 将 把 注意 力 转 到 实际 的 微 
处 理 器 一 一 ARM Eo ARM 处 理 器 的 体系 结构 已 经 发 展 了 很 多 年 ， 而 且 分 成 了 几 个 系列 ， 每 
个 系列 都 面向 特定 的 市 场 ， 比 如 般 入 式微 控制 如 或 高 性 能 计算 机 。 本 章 将 讨论 A 系列 处 理 
器 ， 比 如 A8、A9 和 Al15。 


3.3 ARM 指令 集体 系 结构 


20 世纪 80 年 代 是 RISC 处 理 器 的 时 代 ， 一 些 学 术 界 人 士 分 析 了 当时 处 理 器 的 性 能 ， 并 
发 现 了 他 们 所 想 要 的 处 理 器 ， 他 们 推动 了 RISC 的 发 展 。 研 究 者 们 分 析 了 微 处 理 器 所 执行 
的 代码 ， 得 到 了 一 些 有 趣 的 观察 结果 。 例 如 ， 他 们 发 现 20 世纪 80 年 代 的 处 理 器 中 有 些 指 
令 很 少 有 机 会 被 执行 。 这 些 指 令 浪 费 了 宝贵 的 芯片 面积 。 他 们 提出 了 精简 指令 集 (Reduced 
Instruction Set, RISC) 处 理 器 ， 作 为 一 种 用 于 提高 微 处 理 器 效率 的 手段 。 计 算 机 设计 者 又 
回 到 了 基本 原理 。 

曾经 有 一 段 时 间 ，RISC CISC 的 争论 十 分 激烈 ， 但 这 种 争论 最 终 还 是 优 旋 息 鼓 了 。 
Intel 体系 结构 由 于 其 庞大 的 用 户 基础 而 保留 下 来 。 而 且 ，Intel 付出 了 巨大 的 努力 扩展 IA32 
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体系 结构 ， 以 便 它 能 更 好 地 适应 自己 的 角色 ， 同 时 也 改善 了 其 微 体 系 结构 以 增强 计算 效 
率 。 尽 管 RISC 处 理 器 没有 横扫 CISC 处 理 器 ， 但 有 些 计算 机 公司 ， 比 如 英国 艾 康 计算 机 公 
司 ( Acorn Computers) 能 够 用 很 少 的 资源 设计 出 高 性 能 RISC 处 理 器 ， 它 所 用 的 资源 仅仅 是 
Intel 和 Freescale 等 巨人 的 极 小 一 部 分 。 

下 面 将 讨论 ARM 的 ISA， 并 介绍 如 何 用 ARM 的 本 地 汇编 语言 来 编程 。 本 书 使 用 ARM 
作为 工具 来 讲授 基本 原理 ， 因 为 它 是 一 个 简单 且 完 美的 计算 机 ， 没 有 许多 其 他 类 型 处 理 器 那 
样 的 陡峭 的 学 习 曲 线 。 


ARM 

ARM 体系 结构 的 知识 产权 属于 总 部 位 于 英国 剑桥 的 ARM 公司。 该 公司 最 初 是 由 
艾 康 计算 机 公司 (Acorn Computers)、 革 有 果 计 算 机 公司 ( Apple Computers) 和 VLSI 4k 
术 公 司 (VLSI Technology) 于 1990 年 共同 创建 的 先进 RISC i+ HA, ( Advanced RISC 
Machines) 公司 。 

ARM 一 词 最 初 来 源 于 Acorn RISC Machine 的 英文 首 字母 缩写 。 艾 康 计算 机 公司 
基于 8 位 的 6502 设计 了 BBC 微型 计算 机 ， 该 计算 机 被 广泛 应 用 于 英国 的 高 级 中 学 。 
艾 康 的 工程 师 受 到 伯克利 RISC 项 目的 启发 设计 了 自己 RISC 处 理 器 ， 即 Acorn RISC 
Machine (ARM). 

KRH 14% —AK ARM 32 位 微 处 理 器 仅 用 了 20 000 个 晶体 管 一 一 只 有 Freescale 
68K 所 用 晶体 管 数量 的 一 半 。1990 年 ，ARM 项 目 导 致 了 一 个 叫 作 先进 RISC 计算 机 的 
新 公司 的 诞生 。 

不 像 Intel、AMD 和 Freescale, ARM 不 生产 芯片 ， 仅 授权 其 处 理 器 核 应 用 于 片上 
系统 (SoC) 和 微 控 制 器 中 。 到 2008 年 为 止 ， 全球 已 经 生产 出 100 亿 个 ARM 处 理 器 核 ， 
而 且 据 估计 2011 年 的 发 货 量 就 会 达到 50 亿 个 ARM 核 。 

ARM 技术 被 授权 给 包括 Intel、Freescale、 德 州 仪器 、 飞 利 浦 、 富 士 以 及 索尼 等 在 
AMT Tha. 








ARM 是 一 个 32 位 的 计算 机 ， 采用 寄存 器 _ 寄存 器 型 的 体系 结构 ， ,使 用 toad/store #84 
在 存储 器 和 寄存 器 之 间 移 动 数据 。 所 有 操作 数 都 是 32 位 宽 ， 除 了 几 条 乘法 指令 会 产生 64 位 
结果 并 保存 在 两 个 32 位 寄存 器 中 。 第 一 代 ARM 支持 32 位 的 字 以 及 无 符号 字 节 ， 而 后 续 版 
本 也 支持 8 位 有 符号 字 节 、16 位 有 符号 和 无 符号 半 字 。 

许多 微 处 理 器 流行 了 一 段 时 间 后 就 销声匿迹 了 ,但 ARM 取得 了 巨大 的 成 功 。68K 曾经 
被 很 多 人 认为 比 Intel 8086 更 完美 、 更 强大 (的 确 如 此 ， 当 8086 是 16 位 计算 机 时 68K 已 经 
是 真正 的 32 位 计算 机 )。68K 被 Apple Mac, Atari 以 及 Amiga 计算 机 所 采用 ， 这些 都 曾 是 
家 用 计算 机 市 场 的 主要 产品 。 为 什么 简陋 的 8086 会 在 竞争 中 获胜 呢 ? 是 因为 IBM 为 它 的 新 
型 个 人 计算 机 选择 了 8086， 而 其 他 的 则 成 为 历史 。 

ARM 不 仅 幸 存 了 下 来 ， 而 且 成 功 地 眶 准 了 移动 设备 市 场 ， 比 如 上 网 本 、 平 板 电脑 和 蜂 
窜 电 话 。ARM 处 理 器 集成 了 一 些 有 趣 的 体系 结构 特征 ， 它 们 使 ARM 超越 了 其 竞争 对 手 。 
在 介绍 ARM 指令 之 前 ， 我 们 将 首先 讨论 其 寄存 器 集 ， 因 为 所 有 数据 处 理 指 令 都 只 能 对 寄存 
器 的 内 容 进 行 操 作 。 


© 在 ARM 术语 中 ,8 位 为 一 个 字 节 ，16 位 为 一 个 半 字 ，32 位 为 一 个 字 
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3.3.1 ARM 寄存 器 集 


图 3-12 列 出 了 ARM 的 16 个 程序 员 可 见 寄存 器 (r0 ~rl5) 以 及 它 的 状态 寄存 器 。 
ARM 共有 14 个 通用 寄存 器 r0 ~ rl13。 寄 存 器 rl14 存放 子 程序 返回 地 址 ，r15 为 程序 计数 器 。 
由 于 r15 能 够 被 程序 员 访问 ， 因 此 能 够 执行 可 以 计算 的 分 支 (例如 高 级 语言 case 语句 中 所 用 
的 操作 类 型 ) 。ARM 仅 有 16 个 通用 寄存 器 ， 作 为 一 个 RISC 处 理 咒 还 是 很 少见 的 。16 个 寄 
存 器 需要 4 位 地 址 ， 相 对 于 带 有 32 个 寄存 器 ( 5 位 地 址 ) 的 RISC 处 理 器 来 说 每 条 指令 可 节 
约 3 位 。 这 种 方法 使 得 ARM 的 指令 比 一 些 RISC 处 理 器 丰富 得 多 。 寄 存 器 r13 被 保留 用 作 
栈 指针 。 与 特殊 功能 寄存 器 r14 和 r15 不 同 ， 它 们 的 附加 功能 由 ARM 的 硬件 实现 ， 仅 当 程 
序 员 需要 使 用 r13 作为 栈 指针 时 它 才 会 成 为 栈 指 针 。 


用 户 寄 存 器 

=> 

oe 

ia 

= aa CPSR (当前 处 理 器 状态 寄存 器 ) 

| 9 | 31 30 29 28 27 8 7 65 4 0 
—_ eae 未 用 EE 
条 件 码 操作 模式 





tt 
"4 Ee 
"15=PC aj 


将 113 用 作 栈 指针 是 一 个 编程 约定 ， 而 “rl4 Aris 
用 作 链 接 寄存 器 和 程序 计数 器 则 是 由 硬件 实现 的 
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图 3-12 ARM 寄存 器 集 


ARM 的 当前 处 理 器 状态 寄存 器 (CPSR) 包括 Z ( 零 )、N ( 负 )、C (进位 ) 和 V (溢出 ) 
等 标志 位 ， 类 似 于 其 他 处 理 器 中 的 条 件 码 或 状态 寄存 器 。CPSR 的 低 8 位 包含 系统 信息 ， 比 
如 ARM 的 工作 状态 和 中 断 处 理 机 制 ， 本 书后 面 会 介绍 这 些 内 容 。 

如 前 所 述 ， 由 于 仅 实现 了 16 个 寄存 器 ， 所 以 ARM 的 指令 集 比 较 丰 富 。 例 如 ， 一 些 指 
令 实 现 了 四 操作 数 格式 。 请 考虑 指令 ADD r1,r2,r3,LSL,r4 和 MLA r1,r2,r3,r4。 后 面 将 会 详 
细 介 绍 这 些 指 令 。 

图 3-12 进行 了 一 个 很 重要 的 简化 。 有 些 ARM 寄存 器 有 多 个 版 本 或 实例 。 目 前 还 不 必 
考虑 这 些 特点 。 然 而 ， 当 ARM 遇 到 异常 时 ， 它 会 自动 在 寄存 器 体 之 间 切 换 ， 以 避免 操作 系 
统 去 处 理 中 断 之 前 保存 正在 使 用 的 寄存 器 。 后 面 会 详细 介绍 这 一 特点 。 


3.3.2 ARM 指令 


今天 的 高 性 能 处 理 器 与 第 一 代 微 处 理 器 在 指令 集体 系 结构 方面 的 改动 很 小 。ARM 所 实 
现 的 指令 大 体 上 与 Pentium 或 68K 的 相同 ， 可 被 分 为 几 种 基本 类 型 ， 即 便 个 别 作者 会 采用 
不 同 的 方法 对 指令 集 进行 分 类 。 我 们 采用 了 目前 被 广泛 使 用 的 分 类 方法 : 数据 移动 、 算 术 运 
算 、 逻 辑 运算 、 移 位 和 程序 控制 。 
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表 3-1 描述 了 ARM 的 寄存 器 -寄存 器 体系 结构 的 指令 集 。 乍 一 看 ， 这 个 指令 集 似 乎 一 
点 不 令 人 兴奋 。ARM 指令 集 看 起 来 的 确 相 当 小 ， 它 忽略 了 很 多 东西 ， 比 如 移 位 操作 。 很 快 
我 们 就 会 发 现 表 3-1 并 没有 列 出 ARM 的 全 部 指令 。 
表 3-1 ARM 的 数据 处 理 、 数 据 转移 以 及 比较 指令 














Ke REX 

mE TECE 

Pa o = ten) © ta 

寄存 器 -寄存 器 移动 r0] + [rl 

相等 跳 转 PC] # label ( 跳 转 到 label 处 ) 
更 新 ARM 条 件 码 


正如 前 面 已 经 指出 的 ， 与 绝 大 多 数 CISC 体系 结构 不 同 ，ARM 不 会 在 算术 和 你 辑 
运算 后 自动 更 新 状态 标志 。ARM 提供 了 一 种 按 需 更 新 模式 ， 仅 在 当前 指令 助 记 符 带 有 
后 组 $S 时 才 会 自动 更 新 条 件 码 。 例如， 指令 ADD r1,r2,r3 进行 加 法 操作 而 不 更 新 状态 标 
志 ， 而 指令 ADDS 111273 则 会 更 新 状态 标志 。 这 一 功能 特点 使 程序 员 可 以 先 完成 测试 ， 
然后 执行 其 他 指令 而 保持 状态 标志 不 变 。 


SUBS ri,ri,#1 ;r1 减 1 并 设置 状态 位 

ADD 4r2,r2,#4 ; 计数 器 递增 (不 更 新 状态 位 ) 
MUL  r5,r3,r4 ; r3 与 r4 OR (不 更 新 状态 位 ) 
BEQ Error ;如 r1 为 0 则 跳 转 去 处 理 问题 


在 这 个 例子 里 ， 在 减法 和 根据 减法 结果 进行 条 件 分 支 的 指令 之 间 执 行 了 两 条 指令 
(ADD 和 MUL)。 由 于 ADD 和 MUL 不 带 后 缓 S， 所 以 它们 都 不 会 更 新 处 理 器 状态 位 。 





3.4 ARM 汇编 语言 

所 有 处 理 器 的 汇编 语言 都 来 源 于 芯片 设计 者 的 精 雕 细 琢 ， 尽 管 第 三 方 设计 者 也 可 能 会 设 
计 一 种 不 同 的 处 理 器 汇编 语言 。 读 者 已 经 看 到 了 一 部 分 ARM 汇编 语言 ， 下 面 将 介绍 ARM 
汇编 语言 中 一 些 使 读者 能 够 编写 在 ARM 环境 下 运行 的 程序 的 特征 。ARM 指令 的 格式 如 下 


Label Op-code operandl, operand2, operand3 ;comment 

请 考虑 下 面 的 循环 例子 

Test_5 ADD r0,r1,r2 ; tt# TotalTime = Time + NewTime 
SUBS x7, #1 ; 循环 计数 器 递减 
BEO Test 5 ; 为 零 则 跳 转 到 Test 5 处 


Label 是 用 户 定义 的 标号 ， 由 其 他 指令 (如 条 件 分 支 指令 ) 使 用 ， 用 来 引用 标号 所 在 的 
那 一 行 。 请 注意 操作 数列 表 中 逗号 后 是 否 有 空格 并 不 重要 ; 可 以 写 为 operana1,operand2 或 
operandi, operand2。 分 号 后 的 文本 为 注释 字段 ， 会 被 汇编 器 忽略 。 注 释 字 段 提 高 了 程序 的 
可 读 性 。 下 面 仅 对 ARM 汇编 器 进行 基本 介绍 。 商 业 汇编 器 很 复杂 ， 提 供 了 很 多 功能 帮助 程 
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序 员 编 写 汇编 程序 。 例 如 ， 宏 用 来 重复 机 器 指令 序列 ， 而 条 件 汇编 可 以 在 汇编 时 包含 或 忽略 
一 部 分 程序 。 

请 看 下 面 一 段 简单 的 ARM 代码。 假设 我 们 希望 计算 数字 1 ~ 10 的 立方 和 。 可 以 使 用 
乘 累加 指令 实现 ， 如 下 所 示 : 


MOV  r0,#0 ; rO = 0 

MOV _r1,#10 ; FOR i = 1 to 10 (向 下 计数 ) 
Next MUL r2,r1,r1 ; 计算 平方 

MLA r0,r2,rl,r0 ; 计算 立方 并 累加 

SUBS rl,rl,#1 ; 计数 天 递减 ( 置 标志 位 ) 

BNE Next ; END FOR (计数 值 不 为 零 时 跳 转 ) 


这 段 汇编 语言 代码 语法 正确 ， 实 现 了 正确 的 算法 。 但 它 不 是 一 段 能 运行 的 程序 。 例 如 ， 
必须 指定 代码 在 存储 器 中 的 位 置 并 定义 所 需 的 资源 。 汇 编程 序 由 两 部 分 语句 组 成 : 计算 机 可 
执行 指令 Kok St ne i ain aati 。 例 如 ， 汇 编 伪 指令 END 是 不 可 执 
行 的 只 是 简单 地 告 诉 汇编 器 已 到 达 程序 未 尾 。 汇 编 伪 指 令 告诉 汇编 器 代码 在 存储 器 中 
的 位 置 ， sya Sema 3 间 ， 以 及 设置 程序 运行 时 所 需 的 初始 数据 。 





3.4.1 ARM 程序 结构 


首先 来 看 一 段 能 够 在 ARM 计算 机 或 者 带 有 ARM 交叉 开发 系统 的 PC 机 上 运行 的 程序 。 
下 述 代码 段 描 述 了 一 个 简单 的 程序 结构 ， 也 就 是 上 面 介 绍 的 计算 整数 1 ~ 10 立方 和 的 程序 。 
加 阴影 的 文字 表示 汇编 伪 指令 而 不 是 可 执行 的 ARM 代码 。 


AREA ARMtest, CODE, READONLY 


ENTRY 

MOV r0,#0 y YO = Q 

MOV r1,#10 ; FOR i = 1 to 10 
Next MUL r2,rl,ri ; 计算 平方 

MLA xr0,r2,r1,xr0 ; 计算 立方 并 累加 

SUBS rl,ri,#1 ; 计数 器 递减 

BNE Next ; END FOR 

END 


汇编 伪 指 令 area 定义 代码 段 。 在 这 个 例子 里 ， 这 个 段 的 名 字 为 ARMTest， 属 性 为 
CODE 和 READONLY。s 汇编 伪 指 令 ENTRY 告诉 汇编 器 在 哪里 找到 要 执行 的 第 一 条 指令 。 
伪 指 令 END 是 强制 的 ， 它 告诉 汇编 器 已 经 到 达 程 序 末 尾 。 图 3-13 显示 了 Keil 公司 的 ARM 
集成 开发 系统 编辑 器 窗口 内 的 源 代码 程序 。 有 关 该 开发 系统 的 详细 情况 可 参考 本 教材 配套 的 
Web 网 站 。 请 注意 本 章 中 来 自 于 ARM 集成 开发 系统 的 图 片 不 是 彩色 的 。 

汇编 程序 编写 完毕 后 就 可 以 汇编 和 执行 了 。 下 面 请 看 一 段 反 汇编 代码 ( 见 图 3-14 )。 该 
窗口 给 出 了 源 代 码 和 反 汇 编 代 码 。 反 汇编 就 是 将 汇编 器 产生 的 代码 转换 回 汇编 语言 源 程序 ， 
这 样 就 能 看 到 代码 和 指令 。 反 汇编 代码 窗口 从 左 起 依次 显示 了 指令 的 存储 器 地 址 ， 指 令 的 
十 六 进 制 编码 ， 然 后 是 反 汇 编 得 到 的 汇编 指令 。 例 如 ， 在 地 址 0x00000008 处 ， 指 令 的 十 六 
进 制 编码 为 E0020191， 相 应 的 汇编 指令 为 MUL r2.rl,rl。 该 例子 也 说 明 存储 在 存储 器 中 的 
指令 / 代码 不 是 文本 的 而 是 二 进 制 的 ; 在 本 例 中 ， 指 令 为 0xE0020191 或 1110000000000010 
00000001100100012. 

图 3-15 显示 了 程序 运行 期 间 的 状态 。 下 面 已 把 不 必要 的 窗口 都 关 掉 ， 只 留 下 寄存 器 
窗口 和 代码 窗口 。 寄 存 器 窗口 显示 了 程序 运行 期 间 每 个 寄存 器 的 内 容 ， 有 助 于 程序 调试 。 


日 可 写 的 内 存 区 域 则 指定 为 READWRITE。 
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图 3-15 中 的 箭头 指向 一 个 按钮 ， 点 击 它 就 会 执行 指令 。 图 3-16 显示 了 执行 4 条 指令 之 后 同 
样 的 两 个 窗口 。 请 注意 此 时 rl 的 值 为 0x0A，PC 为 0x0C， 而 r2 为 0x64， 即 100 BY 10°. 
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AREA Cubes, CODE, READONLY 
ENTRY 

r0,#0 

r1,#10 

r2,ri,ri 

ro, r2.ri, 

ri,rl,#i 

Next 











"Chap3_Intro Cubes.axf” - O Errer(s), 9 Warr 








| Dy Tempraces |] Suita Output lai 





ARM” Software 





clear total ir 
RO, #0x00000000 
4: MoV ’ ;FOR 1 
Ox00000004 E3A0100A y Ri, $0x0000000A 
: Next MUL 2 1 ¢ aquare number 
£0020192 R2,R1,R2 
MLA r0,r2,r1,z0 ; 
E0200192 MLA RO,R2,R1,R0 
SUBS ri,ri,#i ? decrement Loop count 
E2511002 SUBS Ri, Ri, #0x500000023 
3 BNE Next :END FOR 
)0x00000014 iAFFFFFB BNE 0x00000008 


cube number and add to toral 











AREA Cubes, CODE, READONLY 
ENTRY 

ro, #0 

ri, #0 

v2,r1,rl 

ro, r2,ri,r0 

ri,ri,#1 

Next 








ARM? Software 








3-15 正在 运行 的 程序 及 其 寄存 器 集 
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FRAJA 
mro > Jags a-o- 5. aaa 














12 ix 
R13 (SP) 000000000 
R14 (LR) 000000000 
RISP n 


& CPSR 000000003 
E SPSR 06000000 wji 

















ARM” Software 





图 3-16 执行 4 条 指令 之 后 的 程序 


3.4.2 ”汇编 器 的 实际 考虑 因素 

在 深入 探讨 ARM 体系 结构 之 前 ， 需 要 分 析 一 些 编写 汇编 语言 程序 所 用 的 约定 ， 并 说 明 
如 何 为 常量 和 变量 预 留存 储 空 间 。 读 者 已 经 看 到 了 前 级 # 可 将 立即 类 用 作 操作 数 。 数 字 一 般 
被 视 作 十 进 制 的 ， 除非 带 有 前 级 Ox 表示 它 是 十 六 进 制 的 。 例 如 ，MOYV r0,#0x2C。ASCII 字 
符 采 用 单 引号 表示 。 例 如 ， 

CMP r0,#'A’ ; FH ‘a’ 4? 

EQU 和 DCD 是 两 个 重要 的 汇编 伪 指 令 ，EQU 把 一 个 名 字 与 一 个 值 绑 在 一 起 ，DCD 在 
程序 运行 前 将 数据 提前 载 和 人 存储 空间 。 伪 指令 EQU 很 容易 理解 。 它 把 一 个 数字 值 绑 定 ( 即 
附加 ) 到 一 个 名 字 上 。 假设 有 如 下 语句 : © 

Tuesday EQU 2 

这 个 汇编 伪 指 令 将 字符 串 Tuesday 绑 定 到 数值 2 上 。 如 有 指令 ADD r1,r2,#Tuesday， 则 
编译 需 将 把 它 视 作 ADD r1,r2,#2 来 处 理 。 用 名 字 来 代替 数值 的 原因 是 为 了 增加 程序 的 可 读 
性 。 如 果 令 Tuesday 等 于 2， 则 无 论 何 时 遇 到 Tuesday， 汇 编 器 都 简单 地 将 其 替换 为 2。 

汇编 语言 程序 ( 像 高 级 语言 程序 一 样 ) 可 以 使 用 常量 、 变 量 和 数据 结构 。 它 们 都 被 存储 
在 存储 器 中 的 某 些 位 置 。 计 算 机 用 户 从 来 不 必 关 注 这 些 ， 因 为 操作 系统 和 系统 软件 会 自动 为 
数据 分 配 存储 空间 。 高 级 语言 程序 员 一 般 通 过 变量 或 常量 声明 来 分 配 存储 空间 。 例 如 ， 请 考 
虑 下 面 的 C 代码 : 


int X; 

int y; 
char key; 
int p = A} 


在 这 个 例子 里 ， 共 定义 了 4 个 数据 元 素 并 为 它们 分 配 了 存储 空间 。3 个 为 整 型 变量 ， 一 
个 为 字符 变量 。 请 注意 变量 p 分 配 了 存储 空间 且 被 初始 化 为 4。 
ARM 的 汇编 器 伪 指 令 DCD 为 常量 和 变量 预 留存 储 空间 。 请 考虑 下 面 的 例子 。 
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Valuel EQU 12 ; 将 名 字 Valuel 与 12 关联 

Value2 EQU 45 

Table DCD Valuel ; 将 字 12 保存 在 存储 器 中 
DCD Value2 ; 将 字 45 保存 在 存储 器 中 


助 记 符 DCD 在 存储 器 中 预 留 一 个 32 位 字 的 存储 空间 ， 并 且 把 它 右 边 表达 
式 的 值 加 载 到 该 存储 单元 中 。 本 例 中 ,“ Valuel” 等 价 于 数值 12， 因 此 二 进 制 值 
00000000000000000000000000001100 将 被 保存 到 这 个 存储 单元 中 。 所 用 的 存储 单元 是 顺序 
的 下 一 个 单元 ( 即 存储 伪 指 令 依 次 将 数据 保存 到 存储 单元 中 )。 

位 置 计数 器 按 4 字 节 递 增 , 这 样 下 一 个 DCD 或 指令 将 会 保存 到 下 一 个 字 存 储 单元 中 。 
术语 “位 置 计数 器 ”是 指 在 程序 进行 汇编 时 指向 下 一 个 存储 单元 的 指针 ， 它 在 概念 上 类 似 于 
程序 计数 器 。 

不 一 定 非 要 使 用 32 位 的 值 。 汇 编 器 伪 指令 DCB 和 DCW 分 别 将 一 个 字 节 和 16 位 的 半 
字 保 存在 存储 单元 中 。 例 如 ， 


Ql DCB 25 ; 将 字 节 数据 25 保存 在 存储 器 中 “ 
Q2 DCB 42 ; 将 字 节 数据 42 保存 在 存储 器 中 
Tx2 DCW 12342 ; 将 16 12342 保存 在 存储 器 中 


尽管 可 以 使 用 DCD 将 文本 字符 串 保 存在 存储 器 中 ， 但 这 会 使 读者 很 难 理解 。ARM 汇编 
器 提供 了 一 个 简单 的 方法 ， 使 用 符号 “=”， 后 面 跟着 带 双 引号 的 字符 串 。 字 符 串 后 面 还 可 
带 有 以 逗号 分 开 的 其 他 字 节 值 。 例 如 ， 


Messl = “This is message 1”, 0 

Mess2 = “This is message 2”, &0C, &0A 
ALIGN 

汇编 器 也 允许 将 其 写 为 


Messl DCB “This is message 1”, 0 


本 例 中 ，ASCII 字符 串 “This is message 1” 被 保存 在 存储 器 中 ， 后 面 跟着 数值 0。 它 后 
面 是 第 二 个 字符 串 ， 然 后 是 字 节 数据 0C16 和 0A16。 请 注意 这 段 代 码 中 汇编 伪 指 令 ALIGN 
的 使 用 。 由 于 ARM 的 所 有 指令 和 字数 据 需要 按 32 位 字 边 界 对 齐 存放 ， 伪 指令 ALIGN 告 
诉 汇编 器 下 面 不 管 是 什么 都 必须 按照 字 边 界 对 齐 。 换 句 话 说 ， 如 果 存 储 了 3 个 8 位 字符 ， 
ALIGN 会 跳 过 一 个 字 节 ， 强 制 下 一 个 地 址 为 32 位 边界 对 齐 的 。 下 面 的 代码 段 说 明了 存储 分 


配 以 及 伪 指 令 ALIGN 的 用 法 。 
AREA Directives, CODE, READONLY 
ENTRY 
MOV r6,#XX ; r6 = 5 (Bh xx) 
LDR 1r7,Pi ; 把 P1 的 值 加 载 到 r79 
ADD r5,r6,r7 ; 元 余 指令 
MOV ro, #0x18 ; 异常 代码 
LDR ri, =0x20026 ; BREW AG 
svc #0x123456 ; ARM 半 主机 (原来 的 SWI) 
xX EQU 5 ; XX = 5 
P1 DCD 0x12345678 ; 存储 十 六 进 制 32 位 值 12345678 
P3 DCB 25 ; 存储 字 节 数据 25 
YY DCB ‘A’ ; 存储 RSCII 字符 'A' 
Tx2 DCW 12342 ; 存储 16 位 值 12342 


O 该 指令 似乎 看 起 来 是 把 内 存单 元 Pl 的 值 加 载 到 r7， 实 际 上 ARM 处 理 器 不 支持 这 种 寻 址 方式 。 该 指令 是 伪 
令 , 会 被 汇编 成 合适 的 ARM 代码 。 本 节 后 面部 分 会 讨论 伪 指 令 。 
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ALIGN ; 确保 代码 为 32 位 边界 对 齐 
Strgl = “Hello” 
Strg2 = “X2”, &0C, &OA 
23 DCW  O0xABCD 

END 


这 段 代码 包括 魔术 代码 (magic code)， 就 是 那 3 行 加 阴影 的 代码 。 之 所 以 使 用 术语 “ 魔 
术 代码 ”是 因为 它 是 与 系统 相关 的 ; 即 它 是 运行 环境 或 操作 系统 的 功能 ， 并 且 程 序 员 必 须 学 
习 这 些 代 码 ， 因 为 对 于 每 一 个 商业 系统 来 说 它 通常 都 是 一 套 不 同 的 指令 。 这 些 指令 把 数据 送 
入 r0 和 rl， 然 后 执行 SVC #0x123456 (后 面 会 解释 LDR r1,=0x20026 )。 这 段 代码 的 作用 就 
是 终止 处 理 器 。 加 载 到 ro 和 rl 中 的 值 为 参数 ， 而 SVC 指令 是 操作 系统 调用 。 顺 便 提 一 下 ， 
这 里 所 用 的 sve 指令 就 是 swr ( 软 中 断 ) 指令 。 如 果 不 喜 欢 魔术 代码 ， 可 以 采用 无 限 循环 来 
结束 程序 


Stop B Stop ; 死 循 环 ! 


图 3-17 显示 了 这 段 代 码 对 应 的 模拟 器 输出 结果 ， 图 3-18 则 给 出 了 反映 存储 器 分 配 情 
况 的 存储 器 映射 。 仔 细 看 看 图 3-17 的 反 汇 编 窗口 ， 就 会 发 现代 码 在 存储 地 址 0x00000010 
(SVC 调用 ) 处 结束 。 代 码 之 后 是 通过 汇编 伪 指 令 加 载 到 存储 器 中 的 数据 。 请 注意 反 汇 编程 
序 试图 反 汇 编 加 载 到 存储 器 中 的 数字 ， 这 导致 右边 无 意义 代码 的 出 现 。 最 后 ， 请 注意 地 址 为 
0x00000029 的 字 节 存储 单元 内 容 为 字 节 0x00， 它 由 汇编 器 插入 ， 以 确保 下 一 个 数据 ， 即 16 
位 半 字 0xABCD 正好 位 于 16 位 地 址 边界 上 。 

图 3-19 给 出 了 ARM 调试 的 另 一 个 会 话 。 本 例 中 使 用 了 一 个 不 同 的 IDE 一 一 可 以 使 用 几 
个 开发 系统 。 此 处 有 代码 窗口 、 寄 存 器 窗口 和 存储 器 窗口 ， 使 用 户 可 以 在 代码 执行 时 检查 存 
储 器 的 状态 。 









coy 
rő, #XX 








| 4: MOV sioad r6 with 5 (1.e., XX) 
Wpx00000000 E3A06005 MOV R6, £0x00000005 
Se LDR r7, P1 ¿load rT with che contents of location Q1 (2 
pxOO000004 ESIFTOOC LDR R7, (PC, #Ox000C] 
| 6: ADD xr5,r6,r7 ,ILSt a dummy instruction 
Edxocon0008 0865007 ADD R5, R6, R7 | 
| Ti MOV r0, #0x18 sangel SWireason_ReportExceptrion | 
įx0000000C E3A00018 MOV ~ RO, #0x00000018 | 
B: LDR Ei, =0x20026 ;ADP_Stopped_ApplicationExit | 
Whxooocon10 E59F1014 LDR Ri, [PC, #0x0014) 
Qs svc #0x123456 sARM semahosting (formerly SWI) 
peOO000024 EFI23456 SWE 0x00123456 


| 9x00000018 12345678 EORNES R5, R4,#0x07900000 
| gx0000001C 19413036 STMNEDE R1, (R1-R2, R4-R5,R1i2-R13}° 
-9x00000020 48656C6C STMMIDA RS!, (R2-R3,R5-R6, R10-R11,R13-R14}^ 


()x000009024 6FS8320C SWIVS ox0058320C Í 

| )x00000022 OAQOABCD BEQ Ox0002AF64 S 

| x0000G02C 00020026 ANDEQ RO,R2,R6,LSR #32 |£ 

| hx00000030 00CO0090 ANDEQ RO, RO, RO v 2 

<y r = 
I= 


图 3-17 内存 数 据 分 配 


00000018 字 0x12345678 
00000019 
0000001A 


0000001B 
0000001C 字 节 数据 25 
0000001D 字符 At 

0000001E 半 字 12342 





图 3-18 ”内 存 数 据 分 配 一 一 内 存 映射 图 
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00000001F 
00000020 
00000021 
00000022 
00000023 
00000024 
00000025 
00000026 
00000027 字 节 0x0C 
00000028 字 节 Ox0A 
90000029 0 HE al dat le Re 
0000002A 半 字 OxABCD 
0000002B 


feat 


字符 名 "Hello" 


字符 串 "xQ" 


DOPPOTLTW 


OxwE Efe ere’ 

0x00000a44 

1_YriteC EQU &0 X 2 Dx00000000 
Eur __ReadC EQU 64 一 z x00000000 
Ox00000000 

Dx00000000 


0x00000000 
alc 3. #024000 initialize the stack pointer lox00000000 
Newlin 0x00000000 
get frrst number and terminetor DxG0000000 
seve terainatar (1 © . operator) a (gx00000006 
seve first nusber 0x00000000 
12 0x00000000 
get second nusber and terainatar ] Dx00000000 
Save terainator 0x00000000 
nx00008080 
do the calculation 3 Finecvifl_User32 


display the number 


0 
ee lox00000000 
reed string of digits and scousulate totel in 

return with non-velid digit terminstor in rf 

clesr input register 

Clear accumulated total 

save link register on the stack 

get a chsrecter in r0 


Ox 00000000 
0x00000000 
0x00000000 
0x00000000 
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图 3-19 ARM 调试 窗口 快照 


3.4.3” 伪 指令 


下 面 介绍 伪 指令 ， 它 是 程序 员 可 用 的 指令 ,但 不 是 处 理 器 ISA 的 一 部 分 。 伪 指令 
种 速记 形式 ， 程 序 员 可 以 用 它 简 单 地 表示 一 个 动作 ， 并 使 汇编 器 生成 合适 的 代码 。 

像 Pentium 那样 的 CISC 处 理 器 能 够 将 地 址 以 及 16 位 或 32 位 数据 加 载 到 寄存 器 中 。 由 
于 ARM 规整 的 32 位 指令 格式 ， 它 不 可 能 直接 实现 这 样 的 指令 。 例 如 ， 阁 想 把 32 位 十 六 进 
制 数 0x1234567 加 载 到 寄存 器 ro 中 ， 不 能 写成 Mov ro,#ox1234567。 幸 运 的 是 ，ARM 汇编 
器 提供 了 能 够 简化 常量 加 载 的 方法 。 

apr 是 ARM 最 有 用 的 指令 之 一 ， 它 把 地 址 加 载 到 目的 寄存 器 中 。 该 指令 的 格式 为 apR 


日 这 是 一 个 有 点 复杂 的 主题 ， 它 使 用 了 一 些 还 没有 介绍 过 的 概念 。 读者 可 以 略 过 这 些 内 容 ， 以 后 再 来 阅读 。 其 
要 点 是 ARM 有 两 个 伪 指 令 ， 它 们 指示 汇编 器 生成 合适 的 代码 从 而 将 32 位 值 加载 到 寄存 器 中 。 
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Faestinstions label， 这 里 label 是 程序 中 有 效 地 址 的 标号 。 尽 管 我 们 会 在 程序 中 看 到 apr, 但 
它 并 不 是 一 个 真正 的 指令 ， 因 为 没有 指令 能 把 32 位 常量 加 载 到 ARM 寄存 器 中 。apR 是 一 个 
可 由 程序 员 使 用 的 伪 操 作 或 虚拟 指令 ， 之 后 汇编 器 将 生成 能 完成 同样 功能 的 实际 机 器 代码 。 
伪 指 令 是 一 种 便捷 的 形式 ， 汇 编 器 将 其 转换 为 实际 指令 ， 将 除 程序 员 从 一 些 事务 性 工作 解脱 
出 来 。 一 般 来 说 ，apR 能 够 利用 ARM 的 app 或 sus 指令 以 及 PC 相对 寻 址 方式 产生 所 需要 的 
地 址 。 

下 面 的 代码 段 说 明了 apR 伪 指 令 的 使 用 方法 。 


ADR rl1,MyArray ; 使 rl1 指向 MyArray 


MyArray DCD 0x12345678 


本 例 中 ， 操 作 ADR ri, MyArray 会 借助 汇编 器 生成 的 代码 将 Myarray 的 32 位 地 址 加 载 到 
寄存 器 rl 中 。 程 序 员 不 必 了 解 汇编 器 如 何 产生 实现 ape 的 合适 代码 。 

另 一 个 很 有 用 的 伪 指 令 是 LDR rd, = value。 在 这 个 例子 里 ， 编 译 器 会 生成 将 已 知 值 载 
入 寄存 器 rd 中 的 代码 ; 例如 ， 指 令 

LDR r0, = 0x12345678 

会 把 数据 12345678, 加 载 到 寄存 器 r0 Fo WR FRE, Bn ae oO da & ov 或 
MVN， 或 者 它 使 用 一 条 LR ro, [ec, #offset] 指令 去 访问 常数 123456781。， 该 常数 被 存放 在 
位 于 存储 器 中 某 处 的 立即 数 池 或 常数 地 。85 

下 面 来 看 一 看 ARM 开发 系统 是 如 何 处 理 伪 指令 的 。 请 考虑 以 下 代码 段 。 这 是 一 个 虚设 
的 代码 段 ， 仅 用 于 说 明 伪 指令 的 用 法 ; 没有 其 他 任何 目的 。 


AREA ConstPool, CODE, READONLY 


ENTRY 
LDR 4r0,=0x12345678 ; 将 32 位 常量 加 载 到 工 0 中 
ADR  r1,Table ; 将 Table 的 地 址 加 载 到 zl 中 
ADR  r2,Tablel + ; 将 Tablel 的 地 址 加 载 到 r2 中 
LDR r3, = OxAAAAAAAA ; 将 32 位 常量 加 载 到 工 3 中 
LDR 4r4,P3 , ; 这 条 语句 的 功能 是 什么 ? 

Table DCD 0xABCDDCBA ; 虚拟 数据 

Tablel DCD OxFFFFFFFF 

B3 DCD  0x22222222 


图 3-20 通过 一 张 ARM 调试 器 运行 时 源码 窗口 的 快照 说 明了 伪 指令 zpR ri, = AI ADR 的 
用 法 。 这 张 快 照 来 自 调试 器 的 反 汇 编 窗口 。 程 序 的 第 一 个 存储 单元 位 于 地 址 0x00000000 处 。 
指令 LDR r0,=0x12345678 被 汇编 为 LDR ro, [PC,#0x0018] 。 现 在 ， 由 于 ARM 的 PC 值 为 当前 
指令 地 址 加 8 (原因 在 于 ARM 的 流水 线 方式 )， 则 被 加 载 到 rO 的 操作 数 的 地 址 为 86 + 181 = 
200 查看 地 址 为 0x00000020 的 存储 单元 ， 可 以 发 现 其 内 容 为 32 位 常量 0x12345678。 汇 
编 带 把 存储 器 中 常量 放 入 立即 数 池 中 ， 然 后 生成 一 条 使 用 PC 相对 寻 址 方式 的 指令 去 访 
问 它 。 

下 一 条 指令 是 aDR ri,Table， 它 是 一 条 伪 指 令 ， 目 的 是 把 标号 为 Table 的 行 的 地 
hk Jn aX 2) AF fF a rl 中 。 看 看 图 3-20 就 会 发 现 ADR rl,Table 已 经 被 汇编 为 ADD rl,pc， 


O 我 们 还 没有 遇 到 过 PC 相对 寻 址 。 这 里 需要 知道 的 就 是 操作 数 的 地 址 由 当前 PC 指定 ; 例如 ， 有 效 地 址 [PC， 
#12] 表明 操作 数位 于 PC 当前 值 所 指 的 位 置 向 前 12 字 节 处 . 


112 BAD BAERKAAHA 


#00000008。 该 指令 的 地 址 为 0x00000004， 因 此 PC 值 应 比 它 大 8， 即 0x0000000C。 如 果 将 
其 加 8， 则 可 以 得 到 值 0x00000014。 从 图 3-20 可 以 看 出 ， 存 储 单元 0x00000014 的 内 容 为 
0xABCDDCBA， 就 是 存储 单元 Table 的 内 容 。 





@)a@O|h 00 ols omasa Aa aa s m) 
|i ps $ M z = j i x z ~ 4? 图 





DR r0, =0%12345678 


00009 E59F0018 LDR RO, [PC, #0x0018) 
„Ta 





ie 
Ri, PC, FOx00000008 











AREA ConstPool, CODE, READONLY 
ENTRY 


IDR x0, =0x%12345678 
ADR ri, Table 

ADR r2,Tablei 

LDR 

LDR 


10 Table DCD 
n Tablel DCD 
12 P3 
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图 3-20 ”使 用 伪 指 令 的 代码 


最 后 来 看 看 指令 LR r4,P3， 它 不 是 ARM 指令 ， 因 为 ARM 不 能 使 用 直接 寻 址 方式 。 
那 会 发 生 什 么 呢 ? 为 什么 汇编 器 不 拒绝 这 条 非法 指令 呢 ? 仔细 看 看 图 3-20， 就 会 发 现 DR 
r4,P3 被 作为 伪 指令 处 理 ， 并 被 汇编 为 合法 指令 LDR r4, [Pc,#0x0004]。 该 指令 将 存储 单元 
PC+4 的 值 加 载 到 r4 中 ; 即 0x10 (指令 地 址 ) + 0x08 (PC 总 是 当前 地 址 +8 ) +4 (指令 偏 移 
地 址 ) = 0x0000001C。 存 储 单元 0x0000001C 的 内 容 为 0x22222222， 它 就 是 P3 的 值 。 换 名 
话说 ， 尽 管 ARM 不 支持 直接 寻 址 方式 ,但 依然 能 将 指令 写成 LDR ro,adaress， If HICE 
也 生成 合适 的 代码 。 如 果 对 于 LDR r4, [Pc,#0x0004] 所 产生 的 地 址 是 [PC] + 4 + 8 感到 困惑 
以 及 想 知道 8 究竟 是 从 哪儿 来 的 ， 只 需要 记 住 两 件 事 即 可 。 首 先 ，PC 自动 递增 指向 下 一 条 
指令 (就 是 加 4 )。 第 二 ，ARM 处 理 器 是 流水 线 实现 的 (将 在 第 6 章 讨论 )， 这 意味 着 在 完成 
当前 指令 之 前 就 已 经 预 取出 了 下 一 条 指令 。 流 水 线 解释 了 第 二 个 4， 因此， 实际 的 PC 就 是 
从 当前 指令 开始 4+4=8 字 节 的 位 置 。 


3.5 ARM 数据 处 理 指 令 


下 面 将 要 介绍 的 指令 承揽 了 所 有 的 计算 工作 。 这 些 指 令 处 理 数 据 并 产生 新 的 值 一 一 不 同 
于 那些 将 数据 从 4 移 到 下 的 指令 ， 也 不 同 于 控制 处 理 器 操作 和 指令 执行 顺序 的 指令 。 这 些 
指令 是 ISA 世界 的 工人 阶级 。 





RIF KAAKSAK 113 





3.5.1 算术 指令 


我 们 从 ARM 的 算术 运算 指令 开始 ， 它 们 对 表示 数量 的 数据 进行 处 理 。 
e 加 法 ADD 


© 减法 SUB 
e 取 人 负 NEG 
o 比较 CMP 
e 乘法 MUL 
e 移 位 9 LSL, LSR, ASL, ASR, ROL, ROR 
1. 加 法 与 减法 


除了 将 两 个 字 相 加 的 “一 般 化 操作 ”以 外 ， 绝 大 多 数 微 处 理 器 都 实现 了 带 进位 的 加 法 指 
令 ， 能 够 将 两 个 操作 数 和 条 件 码 寄存 器 中 的 进位 位 加 到 一 起 。 这 条 指令 会 使 字 长 大 于 计算 机 
固有 字 长 的 链接 运算 更 加 方便 。 下 面 将 首先 使 用 简单 的 一 位 十 进 制 加 法 来 介绍 链接 运算 。 请 
考虑 下 面 3 个 例子 。 


例 1 例 2 例 3 
两 位 数字 加 法 ， 无 进位 两 位 数 加 法 ， 有 进位 
ee 结果 错误 结果 正确 
4 56 56 
+3 +27 +27 
T 73 83 


例 1， 两 个 一 位 数 相 加 并 得 到 了 预期 的 结果 。 例 2， 先 将 低位 的 两 个 数字 相 加 ，6 + 7， 
结果 为 3， 进位 位 被 置 为 1。 然 后 将 高 位 的 两 个 数字 相 加 ，5 + 2， 结 果 为 7。 结果 (〈73 ) 是 
不 正确 的 ， 因 为 个 位 数 6 + 7 的 进位 没有 加 到 十 位 上 。 例 3， 通过 在 十 位 数 的 两 个 数 相 加 时 
也 加 上 了 来 自 个 位 的 进位 输出 解决 了 这 个 问题 。 

图 3-21 说 明了 如 何 使 用 带 进位 的 加 法 指令 实现 链 式 运算 。 在 图 3-21 (a) P, WEHE, 
指令 app r2,rl,zo 将 源 寄 存 器 r0 和 rl 的 内 容 相 加 ， 然 后 将 结果 保存 到 目的 寄存 器 r2 中 。 
该 操作 产生 的 进位 被 保存 到 进位 位 中 。 





+ 
ADD r2,r0,r1 ADDS r4,r0,r2 
ADC 15,21, 2s S 
a) 单 精 度 加 法 。r0 rl 相 加 ， b) 双 精 度 扩展 加 法 。r0 与 rl 相 加 ， 进 位 E 
结果 存放 到 r2， 进 位 存放 到 进位 标 保存 到 进位 位 中 。Frl r3 相 加 ， 再 与 进位 位 号 
志 位 相 加 。 换 名 话说 , ADDS r4,r0,r2 产 生 的 $ 
© 


进位 由 ADC r5,r1,r3 使 用 
图 3-21 单 精度 和 扩展 精度 加 法 


O ”有些 是 带 算术 操作 的 组 移 位 ， 因 为 移 位 可 用 于 乘 2 或 除 2。 同 样 ， 有 些 包 括 带 逻辑 操作 的 移 位 ， 因 为 它们 对 
整个 位 组 进行 操作 。 
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现在 ,假设 使 用 了 32 位 体系 结构 的 ARM 处 理 器 ， 且 要 处 理 64 位 整数 并 要 完成 64 位 
加 法 。 图 3-21 (b) 说 明了 64 位 算术 运算 中 如 何 使 用 32 位 寄存 器 来 传播 进位 。 两 个 64 位 数 
已 经 保存 到 寄存 器 对 rl、r0 和 r3、r2 中 。 

首先 使 用 指令 apps r4,ro,r2， 完成 ro + r2 并 将 结果 保存 到 7r4 中。 进位 输出 保存 到 
CCR 的 进位 位 中 (请 注意 已 在 app 后 添加 了 后 缀 s 以 强制 更 新 进位 位 )。 当 使 用 指令 apc 
r5,r1,r3 将 高 位 的 两 个 数字 相 加 时 ， 进 位 位 也 被 加 到 rl 与 r3 的 和 中 。 助 记 符 ane 表示 带 进 
位 的 加 法 。 这 一 原理 可 被 推广 到 完成 任意 长 整数 的 扩展 精度 算术 运算 。 如 果 想 实现 200 位 
整数 的 加 法 ， 也 可 以 做 到 。ARM 还 提供 了 see 或 带 借 位 的 减法 指令 来 支持 扩展 精度 的 减法 
运算 。 

ARM 提供 了 一 种 不 常用 的 逆 减 法 指令 RsB。 减 法 指令 suB r1,r2,r3 被 定义 为 [r1] — 
[r2] 一 [r3]， 而 逆 减 法 指令 RSB r1,r2,r3 则 被 定义 为 [r1] — [r3] — [r2]。 这 个 指令 看 似 训 无 
用 处 ， 因 为 通过 指令 sup r1,r3,r2 可 以 实现 [r3] - [r2]。 然 而 ， 由 于 ARM 认为 两 个 操作 数 
是 不 平等 的 ， 所 以 递减 法 指令 还 是 有 用 的 ; 后 面 读 者 将 会 看 到 ARM 能 对 第 二 操作 数 进行 缩 
放 操 作 。 而 且 ， 逆 减法 指令 对 立即 数 也 有 用 。 例 如 ， 指 令 sup ri,r2,#10 计 算 [r2] 一 10， 而 
道 减法 指令 RSB r1,r2,#10 则 会 计算 10-[r2]。 l 

2. 取 负 

取 负 就 是 用 零 减 去 一 个 数字 。 例 如 ,r0 的 负数 就 是 0 一 [r0] ARM 没有 这 样 的 取 负 指令 。 
不 过 可 以 使 用 道 减法 来 实现 ， 因 为 RSB ri,ri,#0 就 等 价 于 NEG rl。 

取 反 传送 是 ARM 提供 的 另 一 种 有 趣 但 不 常用 的 操作 。 例 如 ，MvN ro, ri 将 寄存 器 rl 的 
值 远 辑 取 反 后 再 复制 到 寄存 器 r0 中 。 这 个 操作 实现 了 逻辑 取 反 ( 按 位 取 反 )， 而 不 是 算术 取 
反 (符号 反 转 )。 

3. 比较 

实现 条 件 操作 ( 即 循环 和 IF…THEN 等 结构 ) 所 必需 的 比较 运算 可 分 为 隐 式 和 显 式 两 种 。 
隐 式 比较 在 执行 指令 sus riri p 时 发 生 ， 因 为 rl1 减 去 1 后 ， 若 结果 为 零 则 CCR 中 的 Z 
位 会 被 置 为 1。 

通过 执行 指令 cue op 比较 P 和 QO 时 将 发 生 显 式 比较 ， 这 条 指令 会 计算 0 一 了 但 不 会 
GAPS. BUN, cue ro, ri 将 计算 [r0] — [r1] 并 更 新 相应 的 状态 位 。 比 较 操 作 会 修改 条 件 
码 寄存 器 (CCR) 的 内 容 ， 后 面 的 指令 会 测试 该 寄存 器 的 值 以 决定 是 按照 顺序 继续 执行 还 是 
进行 跳 转 。 


请 考虑 下 面 的 例子 。 
CMP r1,r2 ; rl= r2? 
BEQ DoThis ; 如 果 相 等 则 跳 转 到 DoThis 
ADD r1,r1,#1 ; CU ri = ri +1 
B Next ; 不 要 忘记 跳 过 THEN 部 分 代码 
DoThis SUB 2r1,r1,#1 i wl & ah = ił 
Next aes ; 两 个 分 又 汇聚 于 此 
4. 乘法 


乘法 运算 将 两 个 m 位 的 操作 数 相 乘 ,得 到 一 个 2m 位 的 积 。 结 果 的 位 长 加 倍 带 来 了 一 个 
问题 。 计 算 机 要 么 自动 地 将 结果 截断 ， 这 样 32 位 数 与 32 位 数 相 乘 将 得 到 一 个 32 位 的 结果 ， 
要 么 必须 设计 一 个 四 操作 数 指令 : 两 个 为 源 操作 数 ， 两 个 为 目的 操作 数 (分 别 保存 结果 的 高 
半 部 分 和 低 半 部 分 )。 而 且 ， 尽管 二 进 制 补 码 加 减法 运算 能 够 得 到 正确 结果 ， 但 乘除 法 却 不 
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一 定 。 即 对 于 有 符号 和 无 符号 数 不 能 使 用 同样 的 乘法 操作 。 

有 些 征 处 理 器 提供 了 有 符号 和 无 符号 乘法 操作 ， 以 及 结果 为 32 位 的 16 位 乘法 与 结 
为 64 位 的 32 位 乘法 。 下 面 的 信息 框 给 出 了 有 关 ARM 乘法 的 进一步 信息 。 avi 
ARM 的 乘法 操作 不 能 与 其 他 操作 〈 比 如 app a ann) 归 为 一 类 ， 因 为 被 乘 数 不 能 为 常量 ， 第 
二 操作 数 也 不 能 移 位 ( 详 见 后 文 )。 





ARM 乘法 
除了 32 位 乘法 指令 MUL 外，ARM 还 包括 以 下 几 种 乘法 指令 。 
UMULL “无 符号 长 整 型 乘法 (Rm XRd 乘积 为 64 位 ， 存 放 在 两 个 寄存 器 中 ) 
UMLAL ”无 符号 长 整 型 乘 累 加 
sMULL ”有 符号 长 整 型 乘法 
SMLAL ”有 符号 长 整 型 来 累加 











ARM 的 乘法 指令 MUL Ra,Rm,Rs 计算 保存 在 32 位 寄存 器 Rm 和 Rs 中 的 两 个 32 位 有 符 
号 数 的 积 ， 然 后 将 结果 保存 在 32 位 寄存 器 Rd 中 ， 仅 存放 64 位 积 的 低 32 位 。 当 然 ， 应 保 
证 结果 不 超出 范围 。 例 如 ,计算 121 FE 96 的 ARM 汇编 代码 为 : 


MOV r0, #121 ; 4121 加 载 到 ro 中 
MOV r1, #96 ; 将 96 加载 到 rl1 中 
MUL 22, 70,,£1 ; r2= r0 X ri 


不 幸 的 是 ， 目 的 寄存 器 Rd 和 源 寄 存 器 Rm 不 能 使 用 相同 的 寄存 器 ， 因 为 ARM 在 乘法 
计算 过 程 中 将 Rd 当 作 临 时 寄存 器 使 用 。 这 是 ARM 处 理 器 的 一 个 特点 。 

ARM 有 一 个 乘 累加 (ma) 指令 ， 它 先进 行 乘法 ， 然 后 将 乘积 与 另 一 个 数 相 加 。MLa 指 
令 采 用 四 操作 数 形式 : MLA Rd,Rm,Rs,Rn, RTL 定义 为 [Rd] 二 [Rm] x [Rs] + [Rn], 32 
位 数 与 32 位 数 的 乘积 被 截断 成 低 32 位 结 

ARM 的 乘 累加 操作 用 一 条 指令 aes Oe te 内 积 运 算 被 广泛 
用 于 多 媒体 应 用 中 。 例 如 ， 假 设 向 量 a 及 个 元 素 a1,ay…,a,， 向 量 b 有 nn 个 元 素 bi,b,,… 
b,， 则 a 与 b 的 内 积 就 是 标量 s=a* b=al: b+a;*b;+: 、 FA 

T re 累加 指令 计算 两 个 sii Vector1 和 vector2 的 内 
积 。 尽 管 还 没有 介绍 ARM 的 寻 址 方式 ， 但 下 述 例 子 使 用 了 指令 wor ro, [r5],44, EH r5 
所 指 的 数组 元 素 加 载 到 寄存 器 r0 中 ， 然 后 更 新 rs 指向 下 一 个 元 素 。 


MOV r4,#n ; ra 为 循环 计算 器 
MOV  r3,#0 ; 将 内 积 清 零 
ADR  r5,Vectorl ; v5 指向 Vectorl 
ADR r6,Vector2 ; Ir6 指向 Vector2 
Loop LDR r0,[r5], #4 ; REPEAT Ë ÉE Vectori 的 一 个 元 素 并 更 新 指针 
LDR rl1,[r6], #4 ; SERE 的 相应 元 素 
MLA 3 OL ; Zee te (x2 = r3 + vO X x1) 
SUBS r4,r4,#1 ; i Fit a 8 8 wk (记得 更 新 CCR) 
BNE Loop ; UNTIL 所 有 计算 完毕 


图 3-22 给 出 了 该 程序 执行 后 的 一 个 快照 。 我 们 已 经 建立 好 运行 环境 ， 使 用 了 两 个 值 
分 别 为 (1, 2,3,4) 和 (2,3, 4,5) 的 四 元 素 向 量 ， 它 们 的 内 积 为 1.2+2 .3+3 .4+ 
4+ 5=40 或 28,。。 从 图 3-22 可 以 看 到 ， 寄 存 器 r3 的 值 就 是 28 图 中 还 有 一 个 存储 器 窗口 ， 
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5. 除法 

除法 操作 面临 着 与 乘法 一 样 的 问题 : 一 个 2m 位 数 除 以 一 个 m 位 数 会 得 到 商 和 余数 。 同 
样 ， 有 符号 和 无 符号 除法 需要 两 个 独立 的 除法 指令 。ARM 没有 实现 除法 运算 (在 它 的 基本 
模型 里 )， 程 序 员 必 须 自己 编写 软件 除法 子 程序 。 


3.5.2 ”位 操作 


逻辑 操作 也 叫 位 (bitwise) 操作 ， 因 为 这 些 操 作 被 应 用 到 寄存 器 的 每 一 位 。 尽 管 对 两 个 
布尔 变量 一 共有 16 个 可 能 的 逻辑 操作 ， 但 微 处 理 器 一 般 只 支持 AND、OR、NOT 和 EOR 
或 操作 。 下 述 例子 说 明了 对 rl = 11001010, 和 r0 = 00001111, 进行 的 逻辑 操作 。 为 了 简化 起 
见 仅 使 用 8 位 运算 。 


、 A :二 

逻辑 指令 运算 r2 中 的 最 后 结果 
AND r2,r1,r0 11001010.00001111 00001010 

OR r2,r1l,r0 11001010+00001111 11001111 

NOT r2, r1 11001010 00110101 

EOR r2,r1,r0 11001010®00001111 11000101 


尽管 ARM 不 支持 not 指令 ， 但 可 以 使 用 第 二 操作 数 为 FFFFFFFF,e (寄存 器 中 32 个 1) 
的 EOR 指令 来 实现 wor 操作 ， 因 为 x © 1 就 是 x。NOT 操作 也 可 以 通过 取 反 传送 指令 MVN 
来 实现 ,该 指令 将 数据 逻辑 取 反 并 复制 到 寄存 器 中 。 

逻辑 运算 的 典型 应 用 就 是 数据 合并 ， 即 把 多 个 变量 合并 到 一 个 寄存 器 或 存储 单元 中 。 假 
设 寄存 器 r0 包含 8 位 数 bbbbbbxx， 寄 存 器 rl 包含 8 位 数 bbbyyybb， 寄 存 器 r2 包含 8 位 数 
zzzbbbbb， 这 里 x、y 和 z 代 表 需 要 的 位 ， 而 b 是 不 需要 的 位 。 我 们 希望 把 这 些 位 合并 在 起 
得 到 最 后 结果 zzzyyyxx。 通 过 下 述 代码 可 以 达到 这 个 目的 。® 


日 ARM 不 支持 这 种 形式 的 NOT 指令 
© AFH 21010111 表示 1010111,， 这 与 用 符号 0h1234 表示 1234 类 似 。 传 统 上 也 用 %1101 或 0b1101 表示 
二 进 制 数 。Keil 汇编 器 用 前 缀 2_ 表示 二 进 制 数 。 





AND r0,r0,#2_00000011 ; 保留 2 位 xx， 其 他 屏蔽 


AND r1,r1,#2_00011100 ; 保留 3 位 yyy， 其 他 屏蔽 

AND r2,r2,#2_ 11100000 ; 保留 3 位 zzZz， 其 他 屏蔽 

OR xr0,r0,r1 ; AH r1 f ro 得 到 000yyyxx 

OR r0,r0,r2 ; 合并 工 2  r0 得 到 zzzyyyxx 
使 用 位 逻辑 操作 


| 假设 有 一 个 8 位 二 进 制 串 abcdefgh， 需 要 将 b、d 两 位 清 零 ,，a、e、f 三 位 置 1, h 
位 取 反 。 这 可 以 通过 AND、OR 和 EOR 操作 完成 。 


AND r0,r0,#2_10101111 ; Hebd, #2] aocoefgh 
OR r0,r0,#2_10001100 ; a e, 位 置 1， 得 到 10c0119h 


EOR r0,r0,#2 00000001 DERA, 得 到 | 10co11gh 


ARM 提供 了 位 清除 指令 Brc， 将 第 一 个 操作 数 与 第 二 个 操作 数 的 反 码 进行 与 操作 。 例 
如 ，BIC r0,ri,r2 实现 了 [rol 一 [r1] - [r2]。 如 果 BIc 第 二 个 操作 数 中 某 位 为 0， 则 它 将 
第 一 个 操作 数 中 对 应 的 位 复制 到 目的 操作 数 中 ; 如 果 第 二 个 操作 数 中 某 位 为 1， 则 把 目的 操 
作 数 中 对 应 的 位 清 零 。 如 果 ri = 10101010 H r2 = 00001111, MI) BIC ro, r1, r2 的 结果 为 

10101010. 00001111=10101010. 11110000=10100000 

可 用 Bre 指令 对 寄存 器 的 最 低 字 节 清 0。 指 令 arc ro,r1,#0xFF 把 寄存 器 ri 中 的 32 位 

复制 到 寄存 器 ro 中 ， 然 后 把 ro 中 的 第 0 ~ 7 位 清 零 。 


3.5.3 移 位 操作 


移 位 操作 就 是 把 字 中 的 位 向 左 或 向 右 移动 一 个 或 多 个 位 置 。 然 而 ， 当 移 位 一 个 位 串 时 ， 
串 一 端的 位 会 被 丢弃 ， 并 在 男 外 一 端 补充 新 的 位 。 请 考虑 下 面 的 例子 。 

源 串 方向 移 位 次 数 目的 串 

0110 0111 1101 0111 1 1100 1111 1010 1110 

0110 0111 1101 0111 2 1001 1111 0101 1100 

0110 0111 1101 0111 3 0011 1110 1011 1000 

0110 0111 1101 0111 1 0110 0111 1101 0111 

0110 0111 1101 0111 2 0011 0011 1110 1011 

0110 0111 1101 0111 3 0001 1001 1111 0101 

目的 串 中 加 阴 景 的 位 就 是 移 人 的 位 ， 源 串 中 粗 体 的 位 就 是 移 位 后 丢弃 的 位 。 这 里 所 展示 
的 移 位 类 型 是 逻辑 移 位 。 图 3-23 展示 了 移 位 操作 的 3 种 基本 类 型 : 逻辑 移 位 、 算 术 移 位 和 
循环 移 位 。 

所 有 微 处 理 器 都 支持 逻辑 移 位 操作 。 有 些 支 持 向 左 或 向 右 移 动 一 位 ， 其 他 的 支持 多 位 移 
位 。 如 果 移 位 的 位 数 在 指令 中 被 编码 为 常量 ， 这 种 移 位 叫 作 静 态 移 位 ， 因 为 在 运行 时 不 能 改 
变 移 位 位 数 。 如 果 移 位 的 位 数 由 寄存 器 的 值 指定 ， 则 叫 作 动态 移 位 ， 因 为 可 以 在 程序 运行 时 
修改 移 位 的 位 数 。 

逻辑 移 位 的 典型 应 用 就 是 从 一 个 字 中 提取 特定 的 位 。 假 设 有 一 个 8 位 的 串 bxxxxbbb, x 
表示 要 提取 的 位 ，b 代表 无 需 关 心 的 位 。 可 以 用 下 面 的 代码 提取 所 需 的 位 且 将 其 右 对 齐 (请 
注意 这 些 代 码 仅仅 是 为 了 说 明 问题 ， 它 们 不 是 真正 的 ARM 代码 )。 


LSR x0, r0,#3, ; I0 右 移 3 位 ， 得 到 000bxxxx 
AND r0,r0,# 2 00001111 ; 屏蔽 不 需要 的 位 ， 得 到 0000xxxx 


Ot of ot At Rt At 


在 逻辑 移 位 中 ， 零 移 进 
操作 数 0 
cm eRe 来 ,移出 去 的 位 被 复制 到 
LSR 条 件 码 寄存 器 的 进位 位 
0 操作 数 a 


a) 逻辑 移 位 


ASL 
Eeer 


HARVI 2 (ASL), BA 
除 以 2 (ASR), DI 2 的 补 


ASR 
码 表示 的 操作 数 的 符号 位 
"Ma i 保留。 移出 去 的 位 被 复制 


到 进位 位 
b) 算术 移 位 


ROL - 
位 被 复制 到 另外 一 端 空 出 
ROR 位 (也 就 是 ， 没 有 位 在 特 
操作 数 的 位 也 被 复制 到 进位 位 
c) 循环 移 位 
图 3-23 移 位 操作 


ARM 的 移 位 操作 是 非常 特别 的 ， 它 没有 独立 的 移 位 指令 ， 移 位 是 作为 其 他 指令 的 一 部 
分 来 实现 的 。ARM MBS ah VERT af FF tht -寄存 器 型 指令 的 第 二 个 源 操 作 数 进行 移 位 。 例 如 ， 
指令 app ro,rl,r2,LSL #4 先 将 寄存 器 r2 逮 辑 左 移 4 位 ， 然 后 将 移 位 结果 与 寄存 器 rl 相 加 。 
ARM 的 移 位 机 制 并 不 会 增加 完成 指令 的 时 钟 周期 数 ， 因 此 不 用 付出 额外 代价 。 在 介绍 了 一 
般 的 移 位 操作 后 ， 下 面 来 看 看 ARM 的 移 位 操作 。 

1. 算术 移 位 

算术 移 位 将 操作 数 视 作 一 个 有 符号 二 进 制 补 码 数 ， 可 以 用 来 完成 除 以 2 ( 右 移 1 位 ) 或 
者 乘 以 (ER 1 位 ) 等 运算 ， 如 图 3-23b 所 示 。 算 术 移 位 的 目的 是 在 进行 移 位 运算 时 保留 
二 进 制 补 码 数 的 符号 ， 移 位 运算 代表 乘 以 或 除 以 2 WE. 

算术 左 移 与 逻辑 左 移 是 等 价 的。 算术 右 移 会 保留 符号 位 ， 每 次 右 移 后 符号 位 会 自动 复 
制 。 例 如 ， 如 果 将 8 位 数 11001110 算术 左 移 一 位 ， 则 它 将 变 为 10011100 (最 低位 补 零 ); 而 
算术 右 移 一 位 后 将 变 为 11100111 (符号 位 被 复制 )。 一 个 整数 算术 左 移 m 位 相当 于 乘 以 2”， 
而 它 算术 右 移 m 位 则 相当 于 除 以 整数 2”， 

尽管 从 原理 上 来 讲 ， 算 术 左 移 与 逻辑 左 移 没有 任何 区 别 ,但 在 处 理 器 之 间 还 是 有 些 细微 
的 差别 。 例 如 ， 某 个 处 理 器 可 能 会 在 算术 左 移 后 更 新 所 有 状态 位 ， 但 并 不 会 在 逻辑 左 移 后 更 
新 算术 溢出 标志 。 

2. 循环 移 位 

循环 操作 把 寄存 器 的 内 容 看 作 一 个 LSB 与 MSB 相 邻 的 环 ， 如 图 3-23c 所 示 。 当 进行 移 
位 时 ， 从 一 端 移出 去 的 位 会 从 另 一 端 移 进来 。 与 逻辑 移 位 和 算术 移 位 相 比 ， 循 环 操作 不 丢失 
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位 。 例 如 ， 如 果 将 8 位 数 11001110 循环 左 移 一 位 ， 则 变 为 10011101 ( 粗 体 表示 的 位 从 最 高 
位 移 到 最 低位 )。 在 图 3-23c 中 ,移出 的 位 也 被 复制 到 进位 寄存 器 。 微 处 理 器 一 般 采 用 这 种 
方法 ， 这 样 就 可 以 根据 移出 的 位 进行 条 件 操作 。 

有 些 处 理 器 实现 了 另 一 种 循环 操作 ， 叫 作 


带 进位 的 循环 右 移 
扩展 循环 移 位 或 带 进位 的 循环 移 位 。 这 个 操作 本 
与 循环 操作 一 样 ， 只 不 过 循环 时 包含 了 进位 位 ， are 进位 E 
如 图 3-24 所 示 。 移 出 的 位 被 复制 到 进位 位 ， 原 带 进位 循环 左 移 
来 的 进位 位 变 成 了 被 移 人 的 位 。 这 个 操作 被 用 +a 进位 A 
于 链接 运算 (类似 于 带 进位 的 加 法 和 带 借 位 的 


减法 )。 图 3-24 带 进位 的 循环 移 位 

3. ARM 移 位 操作 的 实现 

ARM 实现 移 位 操作 的 方法 非常 独特 ， 它 没有 独立 的 移 位 操作 。 实际 上 ， 移 位 操作 与 其 
他 数据 处 理 操 作 组 合 到 一 起 ， 这 是 因为 可 以 在 使 用 第 二 个 源 操作 数 之 前 将 其 移 位 。 图 3-25 
描述 了 ARM 的 移 位 机 制 ， 它 在 第 二 个 源 操 作 数 的 数据 通路 上 增加 了 一 个 桶 形 移 位 器 。 桶 形 
移 位 器 通过 组 合 罗 辑 实现 数据 左 移 或 右 移 ， 而 没有 使 用 移 位 寄存 器 。 数据 位 被 简单 地 从 输入 
端 复制 到 输出 端 。 因 此 ， 移 位 操作 的 实现 不 会 带 来 额外 的 时 钟 周 期 。 请 考虑 第 二 个 源 操 作 数 
被 移 位 的 app 操作 的 例子 。 该 指令 可 被 写 为 : 

ADD r0,r1,r2, LSL #1 

在 这 个 例子 里 ， 在 将 r2 与 rl 相 加 之 前 , 会 先 将 r2 的 内 容 逻 辑 左 移 一 位 。 因 此 该 操作 等 
价 于 


[ro] + [r1] + [r2] x 2 
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图 3-25 ARM 桶 形 移 位 器 


如 果 仪 希望 对 寄存 右 进 行 移 位 操作 ， 而 不 需要 进行 其 他 数据 处 理 ， 则 可 以 使 用 下 面 的 数 
据 传 送 指令 ， 
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MOV r3,r3, 


由 于 可 完成 动态 移 位 ， 也 可 使 用 指令 Mov r4,r3,us~ ri, EA rl 为 移 位 位 数 对 r3 进 
行 移 位 ， 然 后 把 结果 送 入 r4。 假 设 r0 中 的 数 为 0.00000010101111…， 希望 把 它 规格 化 为 
0.101…。 如 果 用 寄存 器 rl 表示 指数 ， 则 执行 指令 Mov ro,ro,LsL ri 就 可 以 在 一 个 周期 内 完 
成 规格 化 操作 。 

除了 仅 人 允许 移动 一 位 Rex 指令 外 ，ARM 支持 静态 和 动态 移 位 。 静 态 移 位 在 编程 时 就 
已 经 确定 了 移 位 的 位 数 ， 而 动态 移 位 则 允许 在 执行 代码 时 改变 移 位 位 数 。 比 如 指令 Mov 
r3,r3,LSL r2 以 T2 的 值 为 移 位 位 数 对 r3 进行 迎 辑 左 移 。r2 的 值 可 被 看 作 模 32 的 数 ， 因 为 
移 位 不 能 超过 32 次 。 

ARM 仅 实 现 了 以 下 5 种 移 位 操作 (程序 员 必 须 使 用 它们 完成 其 他 的 移 位 操作 )。 

LSL LHA 


LSR WHA 
ASR 算术 右 移 
ROR 循环 右 移 
RRX 带 进 位 的 循环 右 移 ( 移 位 一 次 ) 


尽管 没有 循环 左 移 操 作 ， 但 借助 循环 右 移 也 可 轻而易举 地 实现 它 。 下 面 的 例子 说 明了 4 
位 二 进 制 数 的 循环 左 移 和 循环 右 移 。 经 过 4 次 循环 移 位 ， 操 作 数 没有 变化 。 正 如 读者 所 看 见 
的 ， 循 环 左 移 和 循环 右 移 是 对 称 的 。 对 于 32 位 数 ， 循 环 左 移 n 位 等 价 于 循环 右 移 32-n 位 。 
循环 右 移 循环 左 移 


1101 开始 1101 开始 

1110 循环 右 移 1 次 1011 循环 左 移 1 次 
0111 循环 右 移 2 次 0111 循环 左 移 2 次 
1011 循环 右 移 3 次 1110 循环 左 移 3 次 
1101 循环 右 移 4 次 1101 循环 左 移 4 次 


ARM 也 没有 实现 带 进 位 的 循环 左 移 操 作 。 但 通过 指令 ancs ro,ro,ro 也 可 实现 带 进位 
的 循环 左 移 。 这 看 起 来 似乎 很 奇怪 ， 因 为 它 把 r0 与 r0 以 及 进位 位 一 起 相 加 ， 并 将 结果 保存 
到 r0 中 ( 即 它 生成 结果 2 x [r0] + C)。 现 在 请 考虑 带 进位 的 循环 左 移 。 左 移 等 价 于 乘 以 2。 
而 把 进位 位 移动 到 最 低位 等 价 于 加 上 进位 位 ， 这 样 可 以 得 到 2 x [r0] + C。 请 注意 指令 后 添 
加 了 S 会 强制 更 新 CCR， 这 可 以 确保 进位 输出 被 加 载 到 C 位 。 因 此，apcs ro,ro,ro 与 RXL 
ro 是 等 价 的 。 

这 个 例子 阐明 了 一 个 有 关 汇 编 语 言 的 重要 事实 : 可 以 通过 貌似 星 涩 难 懂 的 代码 来 完成 有 
趣 的 操作 。 这 一 特点 使 得 汇编 语言 在 一 些 黑客 之 间 非 常 流行 ， 但 却 令 很 多 计算 机 科学 家 感到 
厌烦 。 它 使 得 汇编 语言 很 难 理解 ， 因 此 会 影响 程序 员 的 编程 效率 、 代 码 的 可 靠 性 以 及 对 现 有 
代码 的 调试 能 力 。 


| 操作 数 缩放 与 C 语言 

通过 移 位 运算 缩放 操作 数 的 能 力 对 C 语言 指针 处 理 非常 有 用 。 例 如 ，*P_int 是 一 个 
| 指向 32 位 整数 x 的 指针 ， 现 在 增加 指针 的 值 去 访问 一 个 距离 当前 指针 的 偏 移 量 为 offset 
| 的 元 素 。 请 考虑 下 面 的 语 身 : 
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aP int = *P_int + 4 + offset; 
如 果 指 针 *P_int 在 寄存 器 r0 中 ， 而 偏 移 量 offset 在 寄存 器 rl 中 ， 则 可 以 通过 下 面 
的 指令 计算 该 元 素 与 工 的 偏 移 量 offset 


ADD r0,r0,r1, LSL #2 


”在 将 偏 移 量 offset 与 r0 相 加 之 前 ， 通过 过 辑 左 移 操作 将 offset 放大 了 4 信 。 





洞察 ARM 体系 结构 


设计 者 面临 的 指令 编码 约束 可 以 帮助 读者 了 解 指 令 集 是 如 何 构造 的 。 我们 先 来 简单 地 看 

-看 ARM 的 移 位 操作 是 如 何 编码 的 。 尽 管 本 章 的 重点 是 ARM 指令 集体 系 结构 而 不 是 其 内 部 

组 成 ,但 是 指令 的 编码 方式 也 是 十 分 重要 的 ， 因 为 它 决定 了 底层 的 微 体 系 结构 是 如 何 设计 的 。 

图 3-26 给 出 了 ARM 数据 处 理 指令 的 二 进 制 编码 。 它 遵循 其 他 RISC 体系 结构 的 一 般 

模式 ， 包 括 一 个 操作 码 、 两 个 寄存 器 操作 数 以 及 第 三 个 多 目的 操作 数 。 寄 存 器 操作 数 rw 和 
ri 的 定义 了 第 一 个 源 操作 数 和 目的 寄存 器 。0 ~ 11 位 是 第 二 个 源 操作 数 的 编码 。 
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图 3-26 ARM 数据 处 理 指令 编码 


根据 第 25 位 的 状态 ,0 ~ 11 位 要 么 是 表示 第 3 个 操作 数 的 寄存 器 ， 要么 是 个 立即 数 。 
如 果 操作 码 的 第 25 位 为 0， 则 操作 数 2 会 给 出 表示 第 2 个 操作 数 的 寄存 器 和 一 个 移 位 操作 。 
第 4 位 决定 移 位 的 位 数 是 立即 数 还 是 由 第 4 个 寄存 器 的 内 容 所 指定 。 如 果 指 令 的 第 4 位 为 0 
(指定 立即 数 移 位 位 数 )， 则 第 7 ~ 11 位 定义 了 移 位 的 位 数 (0 一 31 位 )， 而 第 5 一 6 位 指定 
移 位 类 型 。 


3.6 ARM 的 流 控 制 指令 


计算 机 按照 严格 的 顺序 执行 指令 。8 流 控制 改变 了 默认 的 顺序 执行 方式 。 前 面 已 经 介绍 
了 强制 跳 转 到 程序 中 某 个 非 顺 序 位 置 的 无 条 件 分 支 ， 以 及 依据 测试 结果 进行 跳 转 的 条 件 分 
支 。 这 里 将 介绍 子 程序 调用 和 和 返回 指令 ， 它 们 会 通过 跳 转 到 一 个 指令 块 、 执 行 这 些 指 令 、 然 
后 返回 到 子 程序 调用 指令 后 的 一 个 位 置 来 修改 控制 流 。 


日 严格 地 说 这 句 话 并 不 正确 。 为 了 提高 性 能 ， 现 代 微 处 理 器 会 并 行 地 甚至 乱 序 地 执行 指令 。 然 而 ， 它 们 却 依然 
展示 出 顺序 执行 的 表象 ， 因 为 它们 所 完成 的 任何 乱 序 执行 都 不 得 改变 程序 的 语义 (含义) 
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3.6.1 无 条 件 分 支 


ARM 无 条 件 分 支 指令 的 格式 为 B target, XE target 指 分 支 目标 地 址 (branch target 
address，BTA)， 也 就 是 要 执行 的 下 一 条 指令 的 地 址 。 下 面 这 段 代 码 说 明了 如 何 使 用 无 条 件 
分 支 指令 。 


do this ; 一 些 代码 

then that ; -ERE 

B Next ; Bait Pwd S 
; 多 被 略 过 的 代码 


; … 被 略 过 的 代码 
Next sa ; PRE aL, He Next Ha 
在 高 级 语言 中 ， 无 条 件 分 支 叫 作 goto， 而 且 它 的 使 用 被 认为 是 一 种 比较 糟糕 的 编程 风 
格 。 然 而 ， 在 汇编 语言 (低级 ) 程序 设计 中 ， 它 是 很 难 避 免 的 ， 因 为 本 地 指令 集 不 支持 高 级 
语言 结构 ， 比 如 证 …then…else。 
无 条 件 分 支 并 不 是 一 个 令 人 兴奋 的 指令 。 人 们 总 是 在 执行 了 程序 中 一 段 特别 的 路 径 之 后 
用 它 返回 到 某 个 公共 位 置 。 无 条 件 分 支 实际 上 就 是 “返回 ”指令 。 


3.6.2 条 件 分 支 


ARM 的 条 件 分 支 与 其 他 RISC 和 CISC 处 理 器 的 类 似 。 包 括 助 记 符 Be 和 一 个 目标 地 址 ， 
这 里 下 标定 义 了 转移 成 功 时 必须 满足 的 16 个 条 件 之 一 ， 而 目标 地 址 就 是 分 支 转 移 成 功 时 要 
继续 执行 的 代码 的 地 址 。 下 面 的 结构 给 出 了 高 级 语言 中 实现 条 件 行为 的 典型 例子 。 

IF (X == Y) 


THEN Y = Y + 1; 
ELSE Y = Y + 2 


在 本 例 中 ， 首 先 执行 测试 ( 即 比 较 X 和 了 )， 然 后 根据 测试 结果 执行 两 个 动作 中 的 一 个 
可 以 将 它们 翻译 为 ARM 汇编 语言 ， 如 下 所 示 : 
CMP r1,r2 ; 假设 1 iy, r2 包括 x; 将 它们 做 比较 
BNE plus2 ; 如 果 不 相 等 则 跳 到 ELSE 部 分 
ADD r1,r1,#1 ; 如 果 相 等 则 继续 ，Y 加 工 
B leave ; WEHI ELSE 部 分 
plus2 ADD r1,r1, #2 ; ELSE $A, ¥ au 2 
leave .. ; 从 这 里 继续 


条 件 分 支 指令 测试 处 理 器 中 条 件 码 寄 存 器 中 的 标志 位 ， 如 果 测 试 结果 为 真 则 转移 成 功 。 
由 于 条 件 码 寄存 器 包括 零 位 (Z)、 负 位 (N)、 进 位 位 (C) 和 溢出 位 (V)， 因 此 基于 单个 位 的 
状态 一 共有 8 种 可 能 的 条 件 分 支 (4 种 在 结果 为 真 时 跳 转 ，4 种 在 结果 为 假 时 跳 转 )。 表 3-2 
定义 了 ARM 的 所 有 条 件 分 支 。 请 注意 这 里 有 一 条 总 是 转移 指令 和 一 条 从 不 转移 指令 。 
表 3-2 ARM 条 件 执行 和 分 支 控制 助 记 符 
相等 ( 即 零 ) 
AE (BARA) 
无 符号 大 于 等 于 
无 符号 小 于 
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(2%) 
编码 | men | 分 支 标志 状态 《_《“。” | 执行 条 件 
om | Ve | vee 
1000 C HLH ZWE 无 符号 大 于 
1001 a EE r 无 符号 小 于 等 于 
1010 KTFF 
1011 N mre V We, E N wen V 一 NF 
1100 KF 
1101 ZEY. AT A E 小 于 等 于 





m | a CY 
mo |o w | 


分 支 指令 可 以 使 用 有 符号 数据 或 无 符号 数据 。 请 考虑 两 个 4 位 二 进 制 数 x= 0011 和 y= 
1001。 假设 希望 在 y 大 于 x 时 跳 转 。 如 果 使 用 无 符号 算术 运算 , x=3 且 =9， 因 此 > x 
然而 ， 如 果 把 它们 看 作 有 符号 数 ， 则 x=3 且 y= -7， 因 此 ”< x。 显 然 ， 对 于 无 符号 算术 运 
算 必 须 选 择 无 符号 比较 操作 ， 对 于 有 符号 算术 运算 必须 选择 有 符号 比较 操作 。 

有 些微 处 理 器 对 于 一 些 条 件 分 支 操作 会 有 同义词 ; 也 就 是 说 ， 同 一 个 条 件 分 支 指令 有 两 
个 助 记 符 。 例 如 ， 进 位 位 分 支 (Bcs) 也 可 写作 as (大 于 等 于 时 跳 转 )， 因 为 进位 为 1 实现 了 
无 符号 算术 运算 中 的 大 于 等 于 操作 。 同 样 地 ，scc 也 可 写作 Bo (小 于 时 跳 转 )， 因 为 进位 为 
0 实现 了 小 于 这 个 无 符号 数 比较 运算 。 


3.6.3 测试 与 比较 指令 


ARM 有 4 条 测试 与 比较 指令 (cmp, cen, TST, TEQ)。 这 些 指 今 会 显 式 地 更 新 条 件 码 标 志 ， 
因此 无 须 在 指令 后 添加 S。 在 前 面 我 们 已 经 遇 到 过 比较 指令 。 

o 相等 测试 指令 (THO) 确定 两 个 操作 数 是 否 相 等 。 如 果 相 等 则 将 Z 位 置 1， 否 则 将 Z 
位 清 0。 例如， 指令 TEO r1,r2 完成 RTL 操作 [r1] - [r2] ,如果 rı 和 re 的 值 相同 ， 
则 Z 位 被 置 1。TEQ 与 常规 比较 (cmp) 指令 类 似 ， 除 了 测试 时 rzo 不 影响 溢出 标志 
的 状态 而 仪 修改 Zio FAH, cme 会 更 新 溢出 标志 。 

o 测试 指令 (TsT) 通过 与 操作 来 比较 两 个 操作 数 ， 然 后 根据 测试 结果 更 新 标志 位 。 可 
以 用 rsz 来 测试 一 个 字 中 的 每 一 位 。 例 如 ， 由 于 小 写 ASCII 字母 的 第 5 位 为 1， 所 以 
通过 下 面 的 代码 来 判断 ro 中 的 ASCH 字母 是 否 为 小 写字 母 。 


TST r0,#2_00100000 ; r0 4 00100000 进行 与 操作 ， 测 试 第 5 位 的 状态 
BEQ LowerCase ; 如 果 第 5 位 为 1 则 跳 到 小 写字 母 处 理 部 分 


在 这 个 例子 里 ，ro 中 的 字母 和 二 进 制 立即 数 00100000, 进行 与 操作 ， 然 后 根据 结果 为 零 
(转移 不 成 功 ) 或 不 为 零 (转移 成 功 ) 进行 分 支 。 
e ARM 的 比较 指令 用 第 一 个 源 操作 数 减 去 第 二 个 ， 然 后 更 新 条 件 码 。 例 如 ， 指 令 cup 
ri, r2 计算 [r1] - [r2] ， 然 后 设置 CPSR PAN, Z, CAV 位 。 
o 取 负 并 比较 指令 com 在 进行 比较 操作 之 前 先 将 第 二 个 源 操 作 数 取 负 。 例 如 ， 指 令 cm 
ri, r2 计算 [r1] - [-r2] ， 然 后 设置 CPSR。 请 注意 [ri1] - [-r2] 的 值 与 [r1] + [r2] 
的 相同 。 
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3.6.4 分支 与 循环 结构 


用 经 典 的 循环 结构 来 介绍 流 控制 概念 是 最 合适 的 ， 循 环 是 结构 化 编程 的 核心 。 下 面 的 代 
码 说 明了 FOR, WHILE 和 UNTIL 循环 的 结构 。 


1. FOR 循环 
MOV r0,#10 ; 设置 循环 计数 器 
Loop code ... ; 循环 体 
SUBS r0,r0,#1 ; 循环 计数 器 减 1 并 设置 状态 标志 
BNE Loop ; 继续 直到 计数 值 为 零 一 一 不 为 零 时 跳 转 
Post loop ... ; 计数 值 为 零 的 后 续 代 码 
2. WHILE 循环 
Loop CMP =r0, #0 ; 循环 开始 执行 测试 
BEQ WhileExit ; 测试 结果 为 true 则 退出 
code ... ; 循环 体 
B Loop ; 为 true 时 重复 
WhileExit Post loop ... ; 退出 
3. UNTIL 循环 
Loop code ... ; 循环 体 
CMP x0, #0 ; 循环 末尾 进行 测试 
BNE Loop ; 重复 直到 uNTIL 为 true 
Post loop ... ; 退出 
4. 组 合 循环 


组 合 循环 将 上 面 3 种 循环 的 特点 结合 在 一 起 。FOR 部 分 指定 了 最 大 计数 值 ， 限 制 了 循 
环 的 执行 次 数 。WHILE 部 分 测试 rl 中 的 初始 条 件 ， 如 果 条 件 不 为 true 则 立即 退出 。UNTIL 
部 分 则 在 循环 体 末 尾 r2 X true 时 退出 。 
MOV  r0,#10 ; 设置 循环 计数 器 


LoopStart CMP r1,#0 ; DA WHILE 测试 开始 
BEQ ComboExit ; A true 退出 循环 
Code... ; 循环 体 
CMP = r2, #0 ; Wik UNTIL 条 件 
BEQ ComboExit ; 为 true 退出 循环 
SUBS r0,r0,#1 ; 循环 计数 器 减 工 并 设置 状态 标志 
BNE LoopStart ; 继续 直到 计数 器 为 零 一 一 不 为 零 则 转移 
ComboExit Post loop ... ; 退出 


下 一 节 将 介绍 ARM 系列 处 理 器 最 有 趣 的 特点 之 一 一 一 条 件 执行 ， 即 根据 处 理 器 当前 的 
状态 决定 是 否 执 行当 前 指令 。 


3.6.5 条 件 执行 


ARM 最 不 寻常 的 特点 之 一 就 是 每 条 指令 都 是 条 件 执行 的 。 可 将 指令 与 逻辑 条 件 ( 表 3-2 
中 列 出 的 16 个 条 件 之 一 ) 关联 在 一 起 。 当 指令 准备 执行 时 ， 如 果 所 述 条 件 为 真 ， 则 指令 正 
常 执行 ; 否则 指令 会 被 旁 路 (无 效 或 转换 为 空 操 作 )。 到 目前 ， 所 有 ARM 指令 都 是 正常 执行 
的 ， 因 为 我 们 总 是 将 指令 与 缺 省 条 件 “ 总 是 执行 ”关联 在 一 起 。 例 如 ， 指 令 appa ro,ri,r2 
表明 我 们 希望 app 总 会 被 执行 。 但 实际 上 没有 人 会 这 样 写 指令 ， 因 为 条 件 AL 是 缺 省 的 。 

图 3-26 中 的 ARM 指令 编码 使 用 第 28 ~ 31 位 以 选择 执行 指令 时 必须 满足 的 条 件 。 除 了 
缺 省 条 件 为 “总 是 执行 ( AL)”， 男 一 个 的 特殊 的 条 件 是 “从 不 执行 (NV), ARM 将 其 保留 
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用 作 未 来 的 扩展 。 汇 编 语言 程序 员 在 指令 助 记 符 后 添加 合适 的 条 件 以 指明 条 件 执行 模式 。 例 
如 ， 助 记 符 


ADDEQ xr1,r2,7r3 


指定 仅 当 条 件 码 寄存 器 中 的 Z 位 因为 前 一 个 结果 为 0 而 被 置 为 1 时 ， 加 法 操作 才 会 被 执 
行 。 该 操作 的 RTL 形式 如 下 


IF Z = 1 THEN [r1] & [r2] + [r3] 


当然 ， 条 件 执行 和 移 位 操作 可 以 组 全 在 一 起 ， 因 为 指令 中 的 分 支 和 移 位 字段 是 无 关 的 。 
可 以 写 出 下 面 的 指令 

ADDE r1,r2,r3 LSL r4 

它 被 解释 为 IF C = 0 THEN [r1] + [r2] + [r23] x 2", 


ARM 的 条 件 执行 模式 使 得 在 高 级 语言 中 实现 条 件 操作 更 为 容易 。 请 考虑 下 面 的 C 代 
码 段 。 


if (P == Q) X= P=Y; 


UVB rl WP, r2H0, r3 为 XX 以 及 rt4 为 Y， 则 可 以 写 为 


CMP ri, £2 ; 比较 已 == Q 
SUBEQR 4r3,r1,xr4 ; wR (P == Q) 则 z3 = rl - r4 


请 注意 这 里 是 通过 将 不 希望 执行 的 指令 转换 为 空 操作 而 不 是 通过 旁 路 这 些 指 令 来 实现 该 
操作 的 ， 即 没有 使 用 分 支 来 实现 。 在 本 例 中 ， 如 果 比 较 结果 为 fasle， 则 减法 被 转换 为 空 操 
作 。 现在 请 考虑 一 个 更 复杂 例子 ， 一 个 带 有 组 合 条 件 的 C 结构 : 


if ((a == b) && (c == d)) e++4; 
CMP r0,r1 ; 比较 a == b 
CMPEQ r2,r3 ; Wa == b, WER c == d 
ADDED r4,r4,#1 ; wa == bic == d, Memi 


第 一 行 ,cp ro,r1, Wa 和 4b。 下 一 行 ,cMPEQ r2,r3， 只 有 在 第 一 行 的 结果 为 true( 即 
a==b) 时 才 会 进行 条 件 比 较 。 第 三 行 ,appgo ra,ra,#1， 仅 当前 一 行 的 结果 为 true( 即 c == d) 
时 才 会 执行 ， 以 实现 et+。 若 不 使 用 条 件 执行 ， 则 可 写 为 : 


CMP roii -; 比较 a == b 
BNE Exit ; a t= WRH 
CMP r2,r3 ; 比较 c == d 
BNE Exit ; c t= G 则 退出 
ADD r4,r4,#1 ; Hemi 


Exit 
正如 读者 所 看 见 的 ， 采 用 常规 方法 实现 组 合 逻 辑 条 件 需 要 5 条 指令 。 也 可 以 处 理 一 些 带 
有 多 个 条 件 的 测试 。 请 考虑 : 


if (a == b) e =e + 4; 
if la < b) e=e+ 7; 
if {a >b) e =e + 12; 


采用 与 前 面相 同 的 寄存 器 分 配 ， 可 以 使 用 条 件 执行 来 实现 上 述 代码 ， 如 下 所 示 : 


CMP ürti ; 比较 a == b 
ADDEQ r4,r4,#4 ; mRa == b, 则 e =e + 4 
ADDLE 4r4,r4,#7 ;i 如果 a < b, Wlese+7 


ADDGT r4,r4,#12 ; 如 果 a > b, fle = e+ 12 
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再 一 次 使 用 常规 的 无 条 件 执行 ， 必 须 使 用 下 面 的 代码 来 实现 这 个 算法 。 


CMP rå, ri ; 比较 == b 
BNE Test1 ; 不 相等 则 跳 转 到 Testi 进行 下 一 次 测试 
RDD r4,r4,#4 ; a == b, fle = e+ 4 
B ExitAll ; RH 
Test1 BLT Test2 ; wa < b, W3] Test2 
ADD r4,r4, #12 ; káta > b, Bhe = e+ 12 
B ExitAll ; 退出 
Test2 ADD r4,r4,#7 ; 此 处 a < b, 因此 ee = e@ + 7 
ExitAll 


这 段 代码 比 先前 的 版 本 复杂 许多 . 


3.7 ARM 寻 址 方式 

寻 址 方式 指 的 是 确定 操作 数位 置 的 方式 。 本 章 开 始 介绍 的 简单 体系 结构 计算 机 支持 绝对 
寻 址 和 立即 数 寻 址 方式 ,但 是 支持 访问 复杂 数据 结构 (比如 表 、 向 量 、 数 组 和 列表 ) 还 是 有 
困难 。 尽 管 3.1 节 介绍 的 基本 体系 结构 仅 支 持 立 即 数 寻 址 和 绝对 寻 址 方式 ， 当 讨论 ARM 的 
加 载 (load) 与 存储 (store) 指令 时 ， 还 引入 了 寄存 器 间接 寻 址 方式 。 把 这 3 种 寻 址 方式 总 
结 如 下 : 


助 记 符 RTL 格式 描述 

ADD r0,r1,#Q [r0] + [r1] + Q 立即 数 寻 址 : 把 整数 OQ 与 寄存 器 1 的 内 容 相 加 

LDR r0,Mem [r0] 僵 [Mem] 绝对 寻 址 : 将 存储 单元 Mem 的 内 容 加 载 到 寡 存 器 x0 Po ARM 不 支持 这 种 
寻 址 方式 ， 但 所 有 CISC 处 理 器 都 支持 。 

LDR r0, [r1] feb] <= [n 寄存 器 间接 寻 址 : 把 rl 所 指 的 存储 单元 的 值 加 载 到 寄存 器 ro 中 。 


下 面 详细 叙述 ARM 的 7 种 寻 址 方式 (如 图 3-27 所 示 )。 再 一 次 强调 ARM 不 支持 简单 
的 存储 器 直接 (绝对 ) 寻 址 方式 ， 没 有 提供 LDR ro, address 这 样 实现 直接 寻 址 、 把 address 
所 代表 的 存储 单元 的 内 容 加 载 到 寄存 器 中 的 指令 。Pentium 和 68K 那样 的 CISC 处 理 器 支持 
存储 器 直接 寻 址 ( 见 下 面 的 文本 框 )。 


直接 (绝对 ) 寻 址 一 一 提示 

在 直接 寻 址 中 ， 指 令 的 地 址 字段 提供 了 当前 指令 操作 数 的 实际 存储 地 址 。 直 接 寻 址 
允许 程序 员 指 定 变量 ( 即 用 户 选 择 的 符号 名 )， 在 程序 的 执行 过 程 中 能 够 动态 改变 。 有 人 
将 这 种 寻 址 模式 叫 作 绝对 寻 址 ， 因 为 指令 提供 了 操作 数 的 实际 地 址 。 

高 级 语言 语句 P=Q+R 能 被 翻译 成 一 个 半 地 址 的 通用 微 处 理 器 汇编 语言 ， 如 下 所 示 : 













助 记 符 RTL 描述 文字 描述 

MOV r0,Q [zol + [ol 把 存储 单元 Q 的 值 加 载 到 寄存 器 r0 中 
ADD r0,R [r0] + [zol + [R] 把 存储 单元 R 的 值 与 寄存 器 r0 相 加 
MOV P,r0 [P] < [r0] 把 结果 存放 入 存储 单元 了 


这 儿 P、Q 和 及 为 符号 名 ,表示 变量 在 主 存 中 的 位 置 。 每 条 指令 采用 直接 寻 址 访问 
它 的 操作 数 。 

绝对 寻 址 受到 一 些 严重 限制 。 它 不 支持 可 重 定位 代码 ， 可 重 定 位 代码 可 以 被 移动 到 
存储 器 中 任何 位 置 而 无 需 计算 新 的 操作 数 地 址 。 它 也 不 支持 可 重 入 代码 ， 可 重 入 代码 可 
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haamrit, 然后 中 断 程序 可 再 次 使 用 该 代码 而 不 会 覆盖 之 前 的 代码 实例 所 用 的 
数据 。 可 重 定位 代码 对 于 多 处 理 十 分 重要 ， 存 储 器 中 的 多 个 程序 可 以 同时 在 处 理 器 中 处 
于 活跃 状态 。 同 样 ， 可 重 入 代码 对 嵌入 式 处 理 十 分 有 用 ， 频 繁 的 中 断 会 使 运行 进程 的 状 
态 态 变 得 很 复杂 。 


wo 


msm 寄存 器 到 寄存 器 
MOV r0,r1 


ae r0 
立即 数 地 址 
| CO MOV r0,r12 


寄存 器 间接 地 址 


LOR r0, [r1] 


带 偏 移 量 的 寄存 器 间 
接地 址 


LOR r0, [rl,#Literal] 


带 索引 的 寄存 器 间 
接地 址 


LOR r0, [r1,r2] 





程序 计数 器 相对 寻 址 


ae LOR x0, [PC, #offset] 
立即 数 偏 移 量 


图 3-27 ARM 寻 址 方式 一 览 
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3.7.1 立即 数 寻 址 
前 面 已 经 讨论 过 这 一 内 容 ， 在 介绍 ARM 如 何 实现 立即 数 寻 址 之 前 ， 先 来 看 一 个 使 用 立 
即 数 寻 址 的 实例 。 高 级 语言 结构 常用 立即 数 寻 址 来 指定 一 个 常量 而 不 是 变量 ， 比 如 : 
IF I > 25 THEN J = K + 12, 
这 里 常量 12 和 25 均 由 立即 数 寻 址 指定 。 可 将 它们 表示 为 
; 假设 I 在 ro 中, Jri, KK 在 r2 中 


< rO, #25 ; z I 4 25 比较 
BLE Exit ; WRI < 25, WR 
RD! El, x2, #12 ; FW Km12 


Exit j nee 


也 可 使 用 条 件 执行 来 简化 上 述 代码 ， 如 下 所 示 。 
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CMP r0,#25 ;i 把 工 与 数值 25 比较 

ADDGE r1,r2,#12 ; WRI > 25, IJ = K + 12 
ADDGT 

ARM 的 实现 方法 


ARM 实现 立即 数 的 方法 与 IA32、68K 或 MIPS 等 其 他 处 理 器 完全 不 同 。 读 者 也 许 已 经 
WA, ARM 在 指令 中 提供 了 12 位 的 立即 数字 段 ， 但 不 支持 值 在 0 一 4095 之 间 的 12 位 无 
符号 立即 数 或 值 在 -2048 ~ 2047 之 间 的 12 位 有 符号 立即 数 。 实 际 上 ，ARM 提供 的 是 可 按 
照 2 的 田 缩 放 的 8 位 立即 数 。 其 至 可 以 认为 ARM 提供 了 某 种 浮 点 立即 数 。 图 3-28 给 出 了 
ARM 立即 操作 数 的 编码 结构 。 当 操作 码 的 第 25 位 为 0 时 ，ARM 将 进行 一 次 移 位 操作 。 当 
第 25 位 为 1 时， 操作 数 2 字段 将 编码 12 位 立即 数 ， 它 被 分 成 两 个 部 分 : 8 位 立即 数 和 4 位 
对 齐 人 码 。 


对 齐 码 8 位 立即 数 


28 2726 25 24 21 2019 #1615 1211 0 
on °° ss | | T 
1 $ 
11 87 0 8 
© 


图 3-28 ARM 立即 操作 数 编码 图 


立即 数字 段 中 最 高 4 位 指定 了 立即 数 在 32 位 字 中 的 对 齐 方式 。 如 果 8 位 立即 数 为 N，4 
位 对 齐 码 为 (范围 在 0 ~ 12 之 间 )， 则 立即 数 的 值 为 Yx 2”。 因 此 ，ARM 提供 了 一 个 可 按 
照 2 的 寡 缩 放 的 8 位 立即 数 。 当 然 ， 这 与 浮 点 数 的 表示 和 存储 方法 相似 。 
下 面 来 看 一 个 ARM 立即 数 缩放 的 例子 。 对 于 图 3-29 所 示 4 种 情形 中 的 每 一 种 ，8 位 立 
即 数 是 11010110。 该 图 说 明了 对 齐 字 段 是 如 何在 32 位 框架 里 移动 立即 数 的 。 请 记 住 为 了 得 
到 将 立即 数 循环 右 移 的 位 数 (是 的 ， 就 是 右 移 的 次 数 )， 必 须 将 对 齐 字段 的 数字 翻 倍 。 
ee 立即 数 编码 


a 0 次 左 移 ，0 次 右 移 (编码 为 00) 
r 10 次 左 移 ，22 次 右 移 (编码 为 0B) 
d 24 次 左 移 ，8 次 右 移 (编码 为 04 ) 


4 位 对 齐 域 。 该 数 ”要 缩放 的 8 位 立即 数 
翻 倍 就 是 立即 数 右 移 
的 次 数 


图 3-29 ARM 立即 操作 数 编码 


假设 希望 将 寄存 器 中 除了 最 高 字 节 (第 24 ~ 31 位 ) 外 的 所 有 位 清 0。 将 寄存 器 与 立即 
数 FFO00000,, 进行 与 操作 就 可 清除 指定 的 位 ， 如 下 所 示 : 


AND r0,r0,#0xFF000000 
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尽管 不 能 直接 指定 32 位 立即 数 ， 但 是 ARM 的 缩放 结构 可 表示 常量 FF000000s， 即 用 8 
位 数 FF,。 左 移 24 位 IAR 8 位 ) 来 表示 。 

取 反 传送 指令 ，MVN ro,zl,#literal， 能 够 指定 一 个 不 必 移 位 且 范 围 在 OxFFFFFFOO 到 
OxFFFFFFFF 的 常量 。 程 序 员 不 用 担心 如 何 产生 移 位 的 常量 ， 这 是 汇编 右 的 工作 。 立 即 数 的 
缩放 不 是 伪 操作 。 起 初 ，ARM 用 户 很 容易 对 立即 数 能 表示 8 位 数 ， 而 且 这 些 8 位 数 能 够 放 
在 32 位 槽 中 的 任意 位 置 这 一 想法 感到 困惑 。 

图 3-30 用 如 下 3 个 例子 说 明了 立 
即 操作 数 的 编码 。 图 中 还 给 出 了 反 汇 编 


ae i E3A000FF MOV RO, #0x000000FF 






窗口 ， 这 样 可 以 看 到 汇编 器 产生 的 代 MOV r1,#0xFFOO | 
家 oo000004 ESA01CFF MOV R1, #0x0000FF00 | 
A MOV r2,#0xFF000000 | 
Fio Bil 如 ， 指 SBM Reyer es xoo000oos E3A024FF MOV i 2, #0xFF000000 I5 
的 二 进 制 代码 为 E3AO1ICFF,e。 |$ 
= je 
MOV ro, #0xFF ‘i E 
MOV rxr1,#0x0000FFO00 
MOV x2, #0xFF000000 图 3-30 ARM 了 立即 数 编码 实例 


图 3-28 告诉 我 们 指令 最 右边 的 12 位 定义 了 立即 数 。 如 果 以 指令 Mov r1,#0xFF00 为 例 ， 
立即 数 编码 为 CFF,,， 就 是 110011111111;， 对 齐 码 为 Cs 或 1210。 实 际 移 位 位 数 是 这 个 数 的 
2 倍 或 24， 通 过 循环 右 移 来 实现 。24 次 循环 右 移 操作 等 于 8 次 循环 左 移 操作 ， 这 是 将 FFis 
移 位 为 FF00,, 所 需 的 。 最 后 来 看 看 0xFF000000， 它 将 十 六 进 制 数 左 移 了 6 次 ， 相 当 于 将 二 
进 制 左 移 24 次 。 不 过 ， 这 里 使 用 循环 右 移 ， 等 价 于 循环 右 移 8 次 。 要 保存 的 缩放 常数 是 移 
位 次 数 的 一 半 ， 即 4。 现 在 来 看 看 图 3-30 中 第 6 行 的 指令 编码 ， 可 看 到 常量 编码 为 4FF。 


3.7.2 ”寄存 器 间接 寻 址 


前 面 已 经 遇 到 过 这 种 寻 址 方式 ， 即 操作 数 的 地 址 保存 在 寄存 器 里 。 这 种 寻 址 方式 叫 作 寄 
存 器 间接 寻 址 ， 因 为 指令 指定 的 寄存 器 是 指向 实际 操作 数 的 指针 。 在 ARM 文献 里 ， 这 种 寻 
址 方式 也 叫 索引 (RSE) 寻 址 ， 有 些 人 也 把 它 叫 作 基 址 寻 址 。 寄 存 器 间接 寻 址 方式 需要 通过 
3 个 读 操作 来 访问 一 个 操作 数 : 

o 读 指 令 得 到 指针 寄存 器 ; 

o 读 指 针 寄存 器 得 到 操作 数 地 址 ; 

o 读 操 作 数 地 址 所 指 的 存储 单元 得 到 操作 数 。 

寄存 器 间接 寻 址 非常 重要 ， 因 为 可 以 在 运行 时 修改 寄存 器 的 内 容 ， 而 寄存 器 中 含有 指 问 
实际 操作 数 的 指针 ， 因 此 地 址 是 变量 ， 允 许 访问 如 数组 、 列 表 、 和 矩 了 泗 、 向 量 和 表格 等 数据 
结构 。 

图 3-31 通过 ARM 的 加 载 指令 wor r1, (rol 说 明了 存储 器 间接 寻 址 。 指 针 寄 存 器 r0 的 
值 为 x， 因 此 指向 或 引用 存储 单元 n。 指 令 LR ri, [zol 将 把 寄存 器 ro 所 指 的 存储 单元 的 
内 容 加 载 到 寄存 器 rl 中 。 

假设 接 下 来 要 执行 指令 app ro,zo,#4， 将 寄存 器 ro 的 内 容 加 4。 由 于 ARM 的 存储 器 
按 字 节 编 址 ， 连 续 两 个 字 的 地 址 正好 相差 4， 所 以 ro 将 指向 存储 器 中 下 一 个 32 位 字 ， 如 图 
3-32 所 示 。LDR r1, [ro] 和 app ro,zo,#4 这 两 个 操作 的 RTL 定义 如 下 


[x1] + [[rol] ; BR ro 所 指 存储 单元 的 值 
; [[r0]] Re ro 所 指 存储 单元 的 值 
[ro] < [r0] + 4 ; 指针 递增 指向 下 一 个 存储 单元 









[r0]=n n+4 
LDR r1, [r0] 把 寄 


存 器 r0 所 指 的 存储 单元 


存储 单元 的 内 容 复 制 到 寄存 器 rl 
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图 3-31 寄存 器 间接 寻 址 


指针 寄存 器 
[rojn +4 


指针 寄存 器 指向 
内 存单 元 n+4 





通过 寄存 器 r0 作为 指针 
访问 存储 器 后 ，r0 的 内 容 
加 4 意味 着 现在 指针 指向 
存储 器 中 下 一 个 字 


图 3-32 ”指针 寄存 器 递增 的 效果 
请 考虑 下 面 的 例子 ， 表 格 中 的 7 个 项 分 别 代 表 一 个 星期 的 每 一 天 。D, 代表 星期 一 ，D， 
代表 星期 二 ， 等 等 。 如 果 D; 是 第 i 天 ， 则 Di 就 表示 下 一 天 。 为 了 从 一 天 移 到 下 一 天 ， 要 
做 的 就 是 将 索引 i 加 1。 这 就 是 需要 变 址 的 原因 。 
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ADR r0,week ; ro 指向 数组 Week 

ADD r0,r0,rl, LSL #2 ; z0 现 在 指向 工 L 所 含 那 一 天 

LDR r2, [r0] ; 读 取 这 一 天 的 数据 到 r2 
Week DCD ; 第 1 天 的 数据 

DCD ; 第 2 天 的 数据 

DCD ; 第 7 天 的 数据 


在 这 个 例子 里 ,假定 天 数 的 索引 为 0 一 6。 天 数 的 索引 必须 乘 以 4， 因为 这 里 的 数组 是 
字 的 数组 〈 每 个 字 4 字 节 )， 连 续 两 个 元 素 的 地 址 之 差 为 4。 

字符 串 是 一 个 很 好 的 使 用 基于 指针 的 寻 址 的 例子 。 假 设 要 找到 某 个 特定 字符 在 字符 串 中 
的 位 置 ， 可 以 写 出 下 面 的 代码 。 这 不 是 ARM 代码 ， 因 为 还 没有 介绍 字 节 操作 。 下 面 使 用 下 
标 表 明 操 作 数 的 大 小 ， 因 为 作者 希望 说 明 数 据 操作 与 指针 操作 的 区 别 。 


LDR» xr0,#String ; 工 0 指向 String 
Loop LDRs r1, [r0] ; REPEAT 读 取 字符 
ADDiz r0,r0,#1 ; 更 新 字符 指针 
CMP; xri,#Terminator ; UNTIL 发 现 终止 符 (终止 符 为 行 结束 字符 ) 
BNE Loop 


有 些 计算 机 将 寄存 器 间接 寻 址 与 指针 更 新 结合 在 一 起 ， 这 样 指针 在 被 使 用 过 之 后 就 可 以 
自动 地 指向 下 一 个 存储 单元 。 例 如 ，68K 系列 使 用 符号 (ao)+ 表明 AO 是 指向 操作 数 的 指针 ， 
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在 访问 了 操作 数 之 后 该 指针 将 自动 递增 (也 称 为 后 递增 或 后 索引 方式 )。 读 者 很 快 就 会 看 到 
ARM 也 实现 了 指针 自动 更 新 。 
ARM 实现 了 加 载 和 存储 操作 : Lor 和 srR， 能 进行 寄存 器 -存储 器 和 存储 器 -寄存 器 的 
数据 传输 ， 它 们 可 被 写作 : 
载 入 IDR ro, [r1] ; 把 r1 所 指 的 字数 据 加 载 到 工 0 中 
存储 STR r2, [r3] ; 把 工 2 中 的 字数 据 存 储 到 r3 所 指 的 存储 单元 
请 考虑 下 面 的 C 代码 段 
for (i = 0; i < 21; i++) 
{ 
ji] = j[i] + 10; 
} 
程序 中 数 0、21 和 10 是 汇编 期 间 由 立即 数 寻 址 方式 指定 的 常量 。 可 把 上 面 的 高 级 语言 
代码 翻译 为 下 面 的 ARM 汇编 语言 : 


MOV x0,#0 ; 设 工 0 为 计数 器 并 初始 化 为 0 
ADR r8,j ; 索引 寄存 器 8 指向 数组 了 ( 伪 指 令 ) 
Loop LDR r1,[r8] ; REPEAT J j[i] 
ADD rr1,r1,#10 ; Jli] 加 10 
STR r1,(r8] ; 保存 J [i] 
ADD r0,r0,#1 ; 计数 器 递增 
CMP r0,#21 ; 把 计数 器 与 终止 符 的 值 +1 进行 比较 
BNE Loop ; UNTIL i = 21 


注意 这 是 从 0 开始 向 上 计数 。 如 果 把 21 加 载 到 r0， 则 可 以 使 用 指令 suBs ro, ro, #1 fifi 
计数 值 递减 ， 后 面 再 跟 BNE Loop 就 可 节约 一 条 指令 。 


| 寻 址 方式 : 术语 注解 
由 于 计算 机 科学 是 一 个 相对 比较 新 的 学 科 ， 经 常 受到 工业 界 的 引导 ， 它 的 一 些 词汇 
| 仍然 没有 统一 。 术 语 寻 址 方式 就 是 其 中 明显 的 一 个 。 下 面 就 是 一 些 例子 。 


名 字 TARF. ARM 例子 68K 例子 

字面 立即 数 MOV r0,#4 MOVE #4,D0 

直接 ee MOVE MemAdr, DO 
寄存 器 间接 索引 、 基 址 LDR r0, [r1] MOVE (A1),DO 

带 偏 移 量 的 寄存 器 间接 前 索引 、 带 位 移 基 址 LDR r0, (r1,#4] MOVE (4, AO) ,DO 
后 递增 寄存 器 间接 后 索引 、 自 动 索引 LDR ro, [r1],#4 MOVE (AO) +,D0 

前 递增 寄存 器 间接 前 索引 、 自 动 索 引 LDR r0, [r1, #4]! MOVE -(A0), DO 
寄存 器 间接 gi eae LDR ro, [ri, r2] MOVE (A0, D2), Do 


带 缩放 双 寄存 器 间接 LDR r0, [ri, r2, 
VEN 带 缩 放 寄存 器 索引 。 LSL #2] 


3.7.3 THRESH RSH 


ARM 支持 一 种 存储 器 寻 址 方式 ， 即 操作 数 有 效 地 址 是 寄存 器 的 内 容 加 上 编码 在 load / 
store 指令 的 立即 数 偏 移 量 。 这 种 寻 址 方式 经 常 也 叫 基 址 加 位 移 寻 址 。ARM 的 立即 数 偏 移 量 
为 12 位 。 它 确实 是 12 位 立即 数 ,不 是 8 位 可 缩放 的 值 。 图 3-33 用 指令 LDR ro, [r1,#4] 来 
说 明 这 一 概念 。 图 中 的 有 效 地址 是 指针 寄存 器 r1 的 内 容 加 上 偏 移 量 4 的 和 ; 即 操作 数 距 离 








指针 所 指 的 地 址 4 个 字 节 。 


SOFTER 









目的 操作 数 
指针 寄存 器 






如 果 指 令 为 LDR x1, [r0, 
#4] 且 r0 为 1000， 则 源 操作 数 
的 有 效 地 址 是 1000+4= 1004 


图 3-33 ”人 带 偏 移 量 寄存 器 间接 寻 址 


可 以 使 用 这 种 寻 址 方式 实现 绝对 寻 址 ， 因 为 若 rl 置 为 零 ， 则 指令 oR xo, [zl,#al 的 作 
用 等 同 于 Lor ro, [#8]。 然 而 ， 由 于 偏 移 量 为 8 位 可 缩放 的 常数 ， 这 样 的 绝对 寻 址 并 不 是 一 
个 很 有 用 的 技巧 。 

下 面 看 一 个 简单 但 很 典型 的 偏 移 寻 址 实例 。 下 述 代码 段 说 明了 如 何 使 用 偏 移 量 实现 数组 
访问 。 由 于 偏 移 量 是 常量 ， 在 运行 时 不 能 改变 。 
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sun EQU 0 ; 一 星期 中 每 一 天 的 偏 移 量 

Mon EQU 4 

Tue EQU 8 

Sat EQU 24 
ADR r0, week ; x0 指向 数组 Week 
LDR r2, [r0,#Tue] ; 读 取 星期 二 的 数据 到 r2 
LDR r3, [r0, #Wed] ; 读 取 星期 三 的 数据 到 r3 
ADD r4,r2, r3 ; 星期 二 的 数据 与 星期 三 的 数据 相 加 
STR r4,[r0, #Mon] ; 把 结果 存放 到 星期 一 

Week DCD ; 第 1 天 的 数据 (星期天) 
DCD ; 第 2 天 的 数据 (星期 一 ) 
DCD ; 第 3 天 的 数据 (星期 二 ) 
DCD ; 第 4 天 的 数据 (星期 三 ) 
DCD ; 第 5 天 的 数据 (星期 四 ) 
DCD ; 第 6 天 的 数据 (星期 五 ) 
DCD ; 第 7 天 的 数据 (星期 六 ) 


图 3-34 显示 了 这 段 程序 产生 的 二 进 制 代码 以 及 对 应 的 反 汇 编 代 码 。 寄 存 器 的 值 是 代码 
执行 结束 时 寄存 器 的 值 。 可 以 看 到 星期 二 和 星期 三 的 数据 已 被 加 到 一 起 。 

ARM 允许 指定 第 二 个 寄存 器 作为 偏 移 量 ， 这 样 就 可 以 使 用 运行 时 可 以 修改 的 动态 偏 移 
ft ( 见 图 3-35 )。 

LDR r2, [r0,r1] ; [r2] + [[r0] + [r1]] 把 ro 加 rl 所 指 存 储 单元 的 值 加 载 到 r2 中 

LDR r2,[r0,r1,LSL #2] ; [r2] + [[r0] + 4 X [r1]] # rl #4 

在 第 二 个 例子 里 ， 寄 存 器 rl 扩大 了 4 倍 。 当 处 理 数组 时 ， 这 允许 使 用 一 个 被 缩放 的 偏 
Mit, Pin, WR ro 指向 数组 XX 且 rl 包括 索引 i， 则 元 素 i 的 地 址 为 X+4i。 这 样 就 可 以 使 
用 指令 LDR r2, [ro, ri, LSL #2] 访问 该 元 素 。 

前 面 已 经 说 明 可 以 通过 向 基 址 寄存 器 增加 立即 数 偏 移 量 或 寄存 器 偏 移 量 来 扩展 寄存 器 间 
ers 如 图 3-35 所 示 。 在 ARM 术语 中 ， 基 址 寄存 器 加 偏 移 量 的 寻 址 方式 叫 作 前 索 

， 因 为 是 在 访问 操作 数 之 前 把 偏 移 量 加 到 指针 上 。ARM 指令 LDR ro, (ri, #8) 指定 了 前 索 
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引 寻 址 方式 ， 操 作 数 的 有 效 地 址 由 [x1] + 8 给 出 。 这 里 ， 前 索引 表示 偏 移 量 #8 在 load 操作 
的 读 阶段 访问 存储 如 之 前 就 被 加 到 基 址 寄存 器 r1 上 。 






CH 
AM 


File Edit View. Project Flash Debug) Peripherals Tools SVCS Window Help 
TOAS AA A E S a ea ae | 





atray week 











R4, (RO, #0x0004) 
ox00000014 £1A00000 
<a 
[£] DaysOMWeek.asm 
AREA DaysOfWeek, CODE, READONLY 
R13(SP) 4 EQU 0 6 ffsats for days of 
R14 (LR) t n EQU 4 7 可 
| EQU £ 








EQU Oxt 712 
EQU 0x10 = 
EQU Oxl4 720 
EQU 0x18 ;i4 


» Usai/System 
Fast interrupt 
H+ Interrupt 

* Supervisor k 

Abon } ADR r0, Week 
1 Undefined LDR r2, [x0, #Tue] 
= intemal LDR r3, (r0, #Wed) 

PCs Dx00000014 ADD r4,r2,r3 


Mode Supervisor STR r4, [r0,4Mon} 

States 10 fe NOP 

Sec 0 00000000 NOE 
AREA DaysOfWeek, DATA, READWRITE 
DCD Ü0x11111111 ; 5 
DCD 0x%22222222 ; 
DCD 0x33333333 ; 
DCD 0x44444444 ; 
DCD 0x555 
DCD Ox66666 


y g 
DCD 0x77177 ay? ¥ y | È 
N 

















图 3-34 ” 带 偏 移 量 寄存 器 间接 寻 址 实例 


带 索 引 寄 存 器 间接 
寻 址 LDR r0, [r1, 


r2] 
r2 


Le) 


可 变 偏 移 量 
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图 3-35 ”人 带 寄存 器 偏 移 量 索引 寻 址 


前 索引 寻 址 方式 可 用 来 访问 数组 匀 的 元 素 i。 例 如 ， 


ADR r0,X ; SHA r0 指向 数组 X 
LDR ri, [r0,i] ; 读 出 元 素 i 


把 这 些 指令 转换 成 可 执行 代码 并 在 模拟 器 中 运行 。 图 3-36 显示 了 这 两 行 代 码 执行 后 模 
拟 融 输出 的 快照 。 数 组 XX 为 哑 元 ,已 用 某 些 数据 初始 化 。 请 注意 索引 i 的 值 为 2， 但 实际 上 
它 等 于 2 x 4， 因 为 数组 中 每 一 个 元 素 为 4 字 节 ， 所 以 字 节 偏 移 量 是 8。 如 上 所 示 ， 代 码 执行 
后 寄存 器 r0 包含 的 值 为 0x00000008 (数组 第 一 个 字数 据 的 地 址 )， 而 rl 的 值 为 Oxabababab, 
它 是 数组 中 的 第 三 个 元 素 〈 请 记 住 第 一 个 元 素 的 偏 移 量 为 0， 所 以 索引 为 2 的 元 素 就 是 第 三 
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AFC ) o 


r0.X 
rl.{r0_ #1) get element 1 


0x01234567 store hex 32-bit value 01234567 
0: IEF 


x 
OxABABABAB 
OxFFAABBCC 





fps Wd eee ee 


图 3-36 前 索引 寄存 器 间接 寻 址 实例 


ARM” Software 








什么 时 候 12 真 的 是 12 

请 回忆 ARM 处 理 器 指定 12 位 常量 作为 立即 操作 数 (例如 ，ADD ro,rl,#123 )。 常 
量 为 8 位 数 并 通过 4 位 对 齐 码 进行 放大 ， 这 样 就 可 以 得 到 以 下 形式 的 立即 数 : 0xAB、 
0xAB0、0xAB000， 等 等 。 

然而 ， 当 ARM 处 理 器 指定 某 个 立即 数 偏 移 量 作为 索引 地 址 的 一 部 分 时 ， 它 就 是 真 
| 正 的 12 位 数 。 因 此 ARM 处 理 器 使 用 的 立即 数 就 是 可 缩放 的 8 位 数 或 者 真正 的 12 位 数 。 








总 之 ， 前 索引 寄存 器 间接 寻 址 使 用 [r0,#d] 或 [r0,r1]， 且 在 访问 存储 器 之 前 将 偏 移 量 (d 
ak rl) 加 到 基 址 寄存 器 上 产生 有 效 地 址 。 基 址 寄存 器 保持 不 变 。 


3.7.4 ARM 的 自动 前 索引 寻 址 方式 


下 面 探讨 ARM 在 寄存 器 间接 寻 址 期 间 自 动 修改 索引 或 基 址 寄存 器 的 内 容 ， 这 有 助 于 读 
取向 量 、 表 格 和 数组 等 结构 中 的 有 序数 据 。 这 种 寻 址 方式 可 用 不 同 的 术语 来 描述 。 例 如 ， 使 
用 术语 自动 递增 和 自动 递减 来 强调 指针 的 自动 修改 ， 前 索引 和 后 索引 则 强调 什么 时 候 递增 
本 节 将 使 用 ARM 的 术语 。 

由 于 数组 、 表 格 或 类 似 数据 结构 中 的 元 素 经 常 被 顺序 访问 ，ISA 设计 者 就 实现 了 自动 索 
引 寻 址 方式 ， 指 针 寄 存 器 在 使 用 之 前 或 之 后 就 被 自动 调整 为 指向 下 一 个 元 素 。 通 过 将 偏 移 量 
加 到 基 址 寄存 器 (指针 寄存 器 ) 上 ARM 实现 了 两 种 自动 索引 方式 。 这 两 种 方式 的 差别 在 于 
基 址 寄存 器 递增 的 时 机 一 一 要 么 在 访问 存储 器 之 前 ， 要 么 在 之 后 。 


68K 的 自动 索引 
68 开 采用 了 一 个 较为 简单 的 自动 索引 方案 。 基 址 /索引 寄存 器 每 使 用 一 次 就 自动 更 
新 。 仅 允许 两 种 方式 : 前 递减 和 后 递增 。 例 如 ， 
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MOVE -(A0),DO ; A0 递减 ， 然 后 把 A0 所 指 存储 单元 的 值 加 载 到 DO 中 
MOVE (A0)+,D0 ; FE AO MARAE AEDST DOP, RE AO 递增 











a eS mr man YR en am a 


ARM 的 自动 前 索引 寻 址 方式 是 在 有 效 地 址 后 面 添加 后 绷 ! 来 表示 。 请 考虑 ARM 指令 : 
LDR ro, (ri, #81! ; 将 寄存 器 工 +8 所 指 存储 单元 中 的 字 加 载 到 r0 中 ， 

; AeA rime 以 更 新 指针 
该 指令 RTL 的 定义 如 下 : 


[xo] + [[r1] + 8] 访问 地 址 为 基 址 寄存 器 =1+8 的 存储 单元 
[v1] «+ [r1] + 8 加 上 偏 移 量 更 新 指针 ( 基 址 和 寄存器) 
自动 索引 方式 不 会 带 来 额外 的 执行 时 间 ， 因 为 它 与 存储 器 访问 并 行 完成 。 请 考虑 下 面 两 
个 数组 相 加 的 例子 。 

Len EQU 8 ; 数组 长 度 为 8 个 字 

ADR xr0,A - 4 ; FEB ro {img A 

ADR r1l,B -4 ; 寄存 器 工 L 指向 数组 B 

ADR 4x2,C - 4 ; 寄存 器 2 指向 数组 

MOV r5,#Len ; 寄存 器 rs 用 作为 循环 计数 器 
LOCY LDR rz, [ro, #4] ! ; ROH A M7 素 

LOR v4, [rl]. #4] ! ; RH eee 

ADD 4r3,r3,r4 ; TAREN 

STR r3, [r2 #4]! = 中 

SUBS r5,r5,#1 ; 测试 循环 是 香 结 束 

BNE Loop ; 重复 直到 全 部 完成 


一 次 执行 指令 LDR r3, [ro0,#4]! 时， 从 地 址 为 r0+4 的 存储 单元 中 取出 操作 数 ， 然 后 
rO 的 值 加 4 指向 下 一 个 元 素 ， 为 下 一 次 循环 做 好 准备 。 前 面 已 经 将 指针 设置 为 每 个 数组 首 地 
址 减 4 个 字 节 ， 因 为 指针 是 在 使 用 前 递增 的 。 幸 和 运 的 是 ， 汇 编 器 允许 指令 apR zo,a-4《〈 即 汇 
编 避 在 汇编 指令 之 前 产生 A 的 地 址 并 用 该 地 址 减 去 4 )。 图 3-37 显示 了 代码 执行 后 系统 的 寄 
TE Ai BRN AAP AA tie RAT 


AREA AutoIndexing, CODE, READWRITE 


ro,A-4 
ri,B- 4 
¥2,€ - @ 
r5,#Len 
r3, tro, #4)! 
ra, Iri, #4}! 
r3,7r3,r4 
r3,[r2,#4]! 
SUBS r5,r5, #1 
BNE Loop 
NOP 


AREA ee DATA, READWRITE 
3,4, WE 


BCL i, 
DCE 2, 7%, ai 
DCD O,o,0,9,9,0,0,0 








Dx00009020: P 
Dx0000093C: & 
Ox09000004C; 
0x09007050C; oN © 9G 

OxGOO0006C: SC L 

Gx000c007C:; = 99 00 06 Q B 9D Od E 
OxOOOOOORC: 09 20 og a0 ao os 99 20 5o 90 oa pe 


图 3-37 ”执行 带 自动 索引 代码 后 的 寄存 器 、 代 码 和 内 存 数据 
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3.7.5 ARM 的 自动 后 索引 寻 址 方式 


ARM 也 提供 自动 后 索引 寻 址 方式 ， 它 首先 访问 基 址 寄存 器 所 指 的 存储 单元 中 的 操作 数 ， 
然后 将 基 址 寄存 器 递增 。 请 考虑 下 面 的 代码 段 : 


LDR ro, [r1] ,#8 ; 将 zl 所 指 的 字 加 载 到 0 中 
; 然后 完成 后 索引 ， 即 ri1 加 8 


后 索引 把 偏 移 量 放 在 中 括号 的 外 面 (例如 [r1]，#8 )。 该 指令 的 RTL 定义 为 : 


[ro] + Lea] 访问 基 址 寄存 器 rl 所 指 存储 单元 
{r1] = [r1] + 8 加 上 偏 移 量 更 新 指针 ( 基 址 寄存 器 ) 


图 3-38 说 明了 ARM 索引 寻 址 的 各 种 变化 。 对 于 每 一 种 情形 ， 基 址 寄存 器 都 是 ri1， 偏 
移 量 为 12， 目 的 寄存 器 是 *o。 
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a) LDR z0: Lel; #12] b)LDR r0, [ri, #12]! c)LDR r0, [r1], #12 

偏 移 量 加 到 基 址 寄存 器 产生 有 偏 移 量 加 到 基 址 寄存 器 产生 有 有 效 地 址 由 基 址 寄存 器 指定 。 
效 地 址 。 操 作 数 在 有 效 地 址 处 被 ” 效 地 址 。 操 作 数 在 有 效 地 址 处 被 ”操作 数 在 有 效 地 址 处 被 访问 。 在 
访问 。 基 址 寄存 器 保持 不 变 访问 。 基 址 寄存 器 在 访问 后 更 新 。” 访问 后 偏 移 量 加 到 基 址 寄存 器 


图 3-38 人 带 偏 移 量 的 寄存 器 间接 寻 址 
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3.7.6 ”程序 计数 器 相对 寻 址 


任何 一 个 ARM 寄存 器 可 用 于 实现 寄存 器 间接 寻 址 。 然 而 ， 寄 存 器 r15 不 仅仅 是 任何 一 
个 寄存 器 ， 它 还 是 程序 计数 器 。 如 果 把 r15 用 作 访 问 操作 数 的 指针 寄存 器 ， 这 种 寻 址 方式 叫 
作 程 序 计 数 器 (PC) 相对 寻 址 ， 操 作 数 地 址 由 其 与 当前 代码 的 相对 位 置 确定 。 这 意味 着 可 以 
将 代码 及 与 之 相关 的 数据 移动 到 存储 器 中 的 不 同 地 方 ， 而 无 需 重新 计算 操作 数 地 址 。 

假设 要 执行 指令 LDR ro, [r15,#100] 。 操 作 数 地 址 距离 寄存 器 ris 的 内 容 的 相对 偏 移 为 
100 字 节 (25 个 字 )。 因 此 ， 操 作 数 位 于 当前 位 置 偏 移 100 字 节 处 。2 汇编 器 利用 PC 相对 寻 
址 实现 伪 指令 。 例 如 ， 它 用 PC 的 当前 值 加 上 偏 移 量 产生 一 个 临近 的 32 位 地 址 。 


3.7.7 ARM 的 load 5 store 指令 编码 


图 3-39 介绍 了 ARM 的 load 和 store 指令 的 格式 。 访 存 操作 有 一 个 条 件 执 行 字段 ， 即 操 
作 码 的 第 28 ~ 31 位 ， 它 们 可 以 像 其 他 ARM 指令 一 样 条 件 执行 。 这 样 代码 可 以 写 为 : 


;if (a == b) then x = p else x = q 


CMP r1,r2 ;if (a == b) 
LDREQ r3, [r4] ;then x = p 
LDRNE r3, [r5] ;else x= q 


日 请 注意 这 与 PC 相对 寻 址 模式 中 与 当前 指令 的 偏 移 量 为 100 个 字 节 不 同 ， 因 为 PC 在 取 指 周期 中 被 使 用 之 后 
会 递增 。 而 且 ，PC 的 状态 也 会 受到 ARM 流水 线 机 制 的 影响 ,流水 线 机 制 会 将 操作 重 释 执行 。ARM 的 PC 
值 与 当前 指令 地 址 相差 8 个 字 节 。 
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操作 码 第 20 位 选择 数据 传送 的 方向 ; 即 指令 是 load 还 是 store。 第 25 位 (# 位 ) 决定 了 
偏 移 量 是 带 可 选 移 位 的 寄存 器 内 容 还 是 12 位 常量 。 第 22 位 选择 操作 数 大 小 ， 并 确定 ARM 
是 传送 32 位 字 还 是 8 位 字 节 。 当 字 节 被 加 载 到 32 位 寄存 器 中 时 ， 寄 存 器 的 第 8 ~ 31 位 将 
被 置 为 零 ( 即 字 节 不 会 被 符号 扩展 )。ARM 系列 的 后 续 版 本 则 扩展 了 ISA 以 允许 符号 扩展 。 

在 图 3-39 中 ， 基 址 寄存 器 ra 是 存储 器 指针 ，U 位 定义 了 有 效 地 址 的 计算 是 加 上 还 是 
减 去 偏 移 量 。W 位 和 了 位 决定 了 索引 是 如 何 实现 的 。W 位 决定 了 当前 指令 结束 时 基 址 寄存 
器 是 否 会 被 更 新 。W=1， 则 会 更 新 基 址 寄存 器 。P 位 控制 偏 移 量 是 在 计算 有 效 地 址 之 前 还 是 
在 之 后 被 加 到 基 址 寄存 器 上 。 因 为 P 位 决定 了 对 偏 移 量 进行 加 法 还 是 减法 ，ARM 能 使 用 以 
下 寻 址 方式 


LDR rů, (et, +r2] ; 有 效 地 址 是 [r1] + [r2] 
和 LDR rO, (xd =) ; 有 效 地 址 是 [r1] - [r2] 
31 282726 25 24 23 22 21 20 19 1615 1211 0 


æn |o a ue wt ee 操作 数 .2 


偏 移 量 选择 # 源 / 目的 寄存 器 

0= 12 位 立即 数 基 址 寄存 器 

1 = 带 移 位 寄存 器 数据 方向 (加载 /存储 ) 
0= 保存 到 存储 器 中 
1 = 加载 到 寄存 器 上 


指针 更 新 ( 写 回 ) 

0= 不 写 回 调整 的 指针 

1 = 写 回 调整 的 指针 

操作 数 大 小 ( 字 节 / 字 ) 

0= 字 访问 

1= 字 节 访 问 

指针 方向 (向 上 /向 下 ) 
0= 递 减 指针 

1 = 递增 指针 

指针 调整 (前 / 后 递增 ) 

0= 后 索引 操作 : 使 用 指针 然后 调整 
1 = 前 索引 操作 : 调整 指针 后 使 用 指针 


11 0 
12 位 立即 数 
11 76 543 0 
移 位 长 度 ”类 型 0 寄存 器 
图 3-39 ARM 的 load 和 store 指令 的 格式 


虽然 指定 有 效 地 址 的 第 二 部 分 是 从 基 址 寄存 器 里 加 还 是 减 这 一 功能 不 太 常 用 ， 但 在 某 些 
应 用 中 还 是 很 有 用 的 。 表 3-3 总 结 了 ARM 基于 寄存 器 的 寻 址 方式 。 
表 3-3 ARM 索引 寻 址 方式 总 览 


ARM 的 load/store 指令 的 形式 化 语法 〈 巴 科斯 范式 ， 缩 写 为 BNF) 定义 为 


立即 数 偏 移 量 


基于 寄存 器 的 偏 移 量 
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前 索引 ， 基 址 不 变 
前 索引 ， 基 址 更 新 
后 索引 ， 基 址 更 新 
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LDR|STR{cond}{B} Rd, [Rn, offset] {!} 


或 者 


LDR|STR{cond}{B} Rd, [Rn] ,offset 


这 里 大 括号 {} 表示 字段 是 可 选 的 ，| 表示 二 中 选 一 。 


可 选 {8} 域 指明 字 节 操作 数 。 前 面 


已 经 用 过 这 个 标记 法 ， 因 为 ARM 文献 采用 此 标记 法 ， 是 一 种 定义 表达 式 格式 的 有 用 方法 。 


请 考虑 指令 : 


LDR r0,[rl, r2,LSL #4)! 
[r5,-r7,ASR #2] 


STRB rg, 


; 有 效 地 址 为 zl + r2 x 2* 
; 有 效 地 址 是 zx5 - r7 X 2” 


再 考虑 一 个 更 深入 的 例子 ， 二 进 制 字符 串 01010111001000100100000100000110 表示 一 
条 ARM 指令 。 可 以 把 这 条 指令 分 解 成 图 3-24 所 描述 的 字段 ， 
是 指令 STRPL r4, [r2,-r6,LSL #2] !。 如 果 用 ARM 模拟 器 汇编 且 执 行 这 条 指令 ， 可 发 现 它 
存储 的 指令 字 为 5722410616。 
表 3-4 ARM 指令 srRPL r4, [r2,-r6, LSL #2]1 的 编码 


域名 解释 
条 件 码 | oo | RR | 为 FE 执行 
RU | om | | 让 nds 
# | 1 S 操作 数 2 格式 O 操作 数 是 移 位 寄存 器 
P | 1 S oe O e 
U | 0 | 指针 方向 O 吉成 指 针 
B E 
w | 。 i 指针 写 回 使 用 后 更 新 指针 
L | o | manm ” _《。 | _ 存储 数据 到 内 存 
ra | 0010 | 基 址 寄存 器 。 《， ”| eaen (指针 ) 寄存 器 
rte | oo | 源 /目的 寄存 器 | zxs 是 存储 指令 的 源 操 作 数 
移 位 长 度 REHE RAS SPI AE 
移 位 类 型 | 0 | Zm _ tea 
操作 码 D 
移 位 寄存 器 ”| omo | 指定 移 位 的 寄存 器 | ve 被 左 移 两 次 


并 得 到 表 3-4 中 的 编码 ， 它 就 


3.8 子 程序 调用 与 返回 

子 程序 (也 叫 过 程 、 函 数 ， 或 者 用 Java 的 说 法 一 一 方法 ) 是 一 个 能 够 被 调用 和 执行 ， 然 
后 返回 到 调用 点 那 条 指令 的 代码 段 。 严 格 地 说 ， 子 程序 是 一 个 能 够 被 调用 和 执行 的 代码 块 ， 
而 子 数 会 被 调用 并 返回 参数 。 而 且 ， 当 调用 子 程序 时 ， 可 以 在 调用 者 与 子 程序 之 间 传 递 参数 。 

这 一 节 除 了 讨论 子 程序 外 ， 还 将 讨论 两 个 问题 : 一 个 是 如 何 将 参数 传递 给 子 程 序 或 者 从 
子 程序 中 传递 出 来 ; 另 一 个 是 怎样 从 子 程序 返回 到 调用 点 。 第 4 章 将 更 详细 地 讨论 子 程序 和 
函数 ， 并 讨论 局 部 空间 和 参数 传递 的 用 途 。 

图 3-40 说 明了 典型 CISC © 处 理 器 调用 子 程序 的 过 程 。 指 令 BsR Proc_A 调 用 子 程 序 
Proc_A。 处 理 器 将 调用 代码 中 要 执行 的 下 一 条 指令 的 地 址 保存 到 一 个 安全 的 地 方 ， 然 后 把 目 
标 地 址 Proc_A， 子 程序 的 第 一 条 指令 ， 加 载 到 程序 计数 器 中 。 把 一 个 非 顺 序 地 址 加 载 到 PC 


O ARM 没有 RTS 指令 。 它 使 用 不 同 的 方法 从 子 程序 调用 中 返回 . 
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就 强制 跳 转 到 子 程序 中 。 在 子 程序 的 末尾 ， 从 子 程序 中 返回 指令 
子 程序 调用 点 的 下 一 条 指令 。 
数据 流 控制 代码 结构 
指 人 
指令 
正常 代码 执行 a 


4 
BSR Proc A 
指令 
BSR Proc_A A 
| Proc A #4 


继续 正常 处 理 





RTS， 使 处 理 器 返回 到 






恢复 PC 


w 
H 
n 
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KI 3-40 “ 子 程序 调用 与 返回 (ARM 处 理 器 没有 使 用 该 机 制 ) 


CISC 处 理 器 采用 栈 结构 为 子 程序 调用 与 返回 提供 硬件 支持 。RISC 处 理 器 一 般 不 会 为 基 
于 栈 的 子 程序 调用 提供 完全 的 硬件 支持 ， 而 是 将 子 程序 处 理 留 给 程序 员 完 成 。 本 节 将 详细 讨 


3.8.1 ARM 对 子 程序 的 支持 


与 其 他 RISC 处 理 器 一 样 ，ARM 处 理 器 没有 像 Intel IA32 或 者 Freescale 68K 等 CISC 
处 理 器 那样 提供 全 自动 的 子 程序 调用 与 返回 机 制 。ARM 的 分 支 并 链接 指令 了， 自动 将 返回 
地 址 保存 在 寄存 器 r14 中 。 分 支 指令 的 格式 (图 3-41 ) 中 带 有 一 个 8 位 操作 码 和 24 位 有 符 
号 的 相对 程序 计数 器 的 偏 移 量 。 由 于 分 支 目标 地 址 是 一 个 字 地 址 ， 分 支 地 址 按 32 位 字 边 界 
对 齐 ， 因 此 ， 它 首先 将 24 位 偏 移 量 左 移 两 位 ， 把 字 偏 移 地 址 转换 成 字 节 地 址 ; 然后 26 位 字 
节 地 址 被 符号 扩展 为 32 位 ， 并 被 加 到 程序 计数 器 上 。 由 于 分 支 地 址 偏 移 量 为 26 位 (B 24 + 


2 )， 因 此 条 件 分 支 的 寻 址 范围 为 PC+ 上 32M 字 节 。 换 句 话 说 ， 从 当前 位 置 可 以 向 前 或 向 后 跳 
转 32M 字 节 。 


31 2827 26 25 24 23 0 
条 件 码 [1 oi 24 位 字 偏 移 量 Š 
E 
L 位 为 0 则 是 分 支 指令 ， 24 位 字 偏 移 量 左 移 两 次 3 
© 


为 1 则 是 分 支 并 链接 指令 产生 26 位 的 字 节 偏 移 量 
图 3-41 ARM 的 分 支 编码 与 分 支 并 链接 指令 
分 支 并 链接 指令 的 行为 与 对 应 的 分 支 指令 基本 相同 ， 但 它 会 将 返回 地 址 ( 即 调用 指令 后 
的 下 一 条 执行 指令 的 地 址 ) 复制 到 链接 寄存 器 r14。 如 果 执行 : 
BL Sub_A ; 带 链接 跳 到 Sub_A 
; 保存 返回 地 址 到 r14 
ARM 执行 了 分 支 指令 ， 将 跳 转 到 标号 sub_a 指定 的 目标 地 址 处 。 它 还 会 将 寄存 器 vis 


140 F—BD HORKABA 


中 的 程序 计数 器 复制 到 链接 寄存 器 r14 中 ， 以 保存 返回 地 址 。 子 程序 的 末尾 通过 把 r14 中 保 
存 的 返回 地 址 传送 到 程序 计数 器 中 ， 其 返回 到 主 程序 。ARM 无 需 特殊 的 返回 指令 ; 仅 需 简 
单 地 写成 : 

MOV pe,lr ; 也 可 写成 MOV r15,r14 

下 面 来 看 一 个 关于 子 程序 使 用 的 简单 例子 。 假 设 要 多 次 在 程序 中 计算 函数 if x > 0 
then x = 16x + 1 else x = 32x, 假定 参数 x 已 在 寄存 器 r0 里 ， 则 可 编写 出 下 面 的 子 程序 。 


Funcl CMP r0,#0 ; 测试 x > 0 
MOVGT r0,r0, LSL #4 ; if x > 0 then x = 16x 
ADDGT r0,r0,#1 ; if x > 0 then x = 16x + 1 
MOVLE r0,r0, LSL #5 ; ELSE if x < 0 THEN X = 32x 
MOV pe,ir ; 恢复 保存 的 PC， 返回 


这 里 利用 了 条 件 执行 。 把 代码 块 转换 成 子 程序 所 要 做 的 唯一 事情 就 是 设置 入 口 点 〈 标 为 
“runci” ) 和 返回 点 ， 用 于 恢复 az 保存 在 链接 寄存 器 中 的 地 址 。 请 考虑 下 面 的 代码 : 


LDR roO, [r4] ; 取出 P 

BL Funcl ; P =(if P > 0 then 16P + 1 else 32P) 第 一 次 函数 调用 
STR rO, [r4] ; REP 

. some code 

LDR  r0, [r5,#20] ; RHO 

BL Funcl ; Q =(if Q > 0 then 16Q + 1 else 320) 第 二 次 函数 调用 
STR ro, [r5,#20] ; 保存 Q 


图 3-42 展示 了 在 ARM 模拟 器 中 执行 这 段 代码 的 情形 。 使 用 虚设 的 数据 进行 了 两 次 调 
用 ; 第 一 次 已 =3， 第 二 次 O = -1 ( FFFFFFFF,s )。 在 代码 运行 结束 时 ， 我 们 希望 P 和 @ 所 
在 存储 单元 的 值 为 49 (31,,) 和 -32 (FFFFFFE0,。)。 这 两 个 值 分 别 被 保存 在 地 址 为 0x50 和 
Ox4C 的 存储 单元 中 。 请 注意 这 里 采用 带 偏 移 量 的 寄存 器 间接 寻 址 把 结果 保存 到 存储 器 中 ， 
例如 ，sTR r4, [ro,#8] 。 


Funci 
ro, [r5, #3) 


ro, Oxs 
rl, =0x20026 2 





Ox00000054: 





ARM” Software 


图 3-42 于 程序 调用 演示 
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3.8.2 条件 子 程序 调用 


由 于 分 支 并 链接 指令 是 条 件 执行 的 ， 所 以 ARM 提供 了 一 套 完 整 的 条 件 子 程序 调用 。 
例如 ， 
CMP r9,r4 ; 如 果 Y9 < r4 


BLUT ABC ; 则 调用 子 程序 ABC 
助 记 符 BLLT h B (无 条 件 分 支 )、L (分 支 并 链接 ) 和 LT (小 于 时 执行 ) 组 成 。 


3.9 ARM 代码 实例 


现在 通过 一 些 ARM 汇编 语言 代码 段 来 看 看 ARM 指令 集 。 一 些 例子 来 自 于 ARM 文献 ， 
展示 了 ARM 指令 集 有 趣 的 一 面 。 计 算 机 用 户 应 该 知道 底层 硬件 的 特性 ， 因 为 是 硬件 ， 无 论 
是 ISA 还 是 cache 访问 机 制 ， 决 定 了 计算 机 系统 的 性 能 。 


3.9.1 计算 绝对 值 


假定 要 得 到 某 个 有 符号 整数 的 绝对 值 ; 即 如 果 x< 0， 则 x= -xs。 下 述 代码 段 使 用 了 TEQ 
指令 和 逆 减 法 操作 : 


TEQ ro, #0 ; 将 r0 与 零 比 较 
RSBMI xr0,R0,#0 ; 如 果 为 负 ， 则 0-z0 (请 注意 逆 减 法 的 使 用 ) 


3.9.2 -FRRESHE 


有 时 ， 需 要 重新 排列 字 节 在 字 中 的 次 序 。 图 3-43 展示 了 如 何 处 理 字 中 的 单个 字 节 。 假 
设 要 把 r0 和 rl 中 的 最 低 字 节 放 到 r2 的 高 16 位 中 ， 且 不 能 覆盖 或 修改 r2 的 低 16 位 。 如 果 
r0 为 00000078,。，rl 为 000000EF。， 
r2 X 11223344, MI) r2 中 的 最 终结 
果 应 为 78EF33441e。 

假设 一 开始 r0 Al rl 的 高 24 位 都 
被 初始 化 为 零 。 图 3-43 描述 了 仅仅 
使 用 3 条 指令 怎样 移动 字 节 数据 。 b) ADD r2, ri, r2, 


r2 
ADD r2,r1,r2, LSL #16. LSL #16 执行 后 妆 的 状态 
ADD r2,r2,r0, LSL #8 c) ADD x2, r2, x0, 
MOV r2,r2, ROR #16 LSL #8 执行 后 2 的 状态 


这 些 操作 的 关键 在 于 ARM 在 同 4d)Mov r2, r2, ROR 
一 条 指令 中 既 能 处 理 数据 也 能 将 数 “要 5 执行 后 它 的 状态 
据 移 位 。 第 一 个 操作 是 ADD r2, rl, 图 3-43” 字 节操 作 实 例 
r2, LSL #16, 将 [2 左 移 16 位 之 后 再 将 它 与 rl 相 加 。 左 移 16 位 将 r2 的 低 16 位 移动 到 高 
16 位 且 低 16 位 被 清 零 。 这 样 就 完成 了 两 件 事情 : 保留 了 r2 中 原 有 的 低 16 的 一 半 ; 将 新 的 
低 16 位 清 0， 为 插入 ro 和 rl 中 的 字 节 做 好 准备 。 

ADD r2,r1,r2,LSL #16 的 加 法 部 分 与 rl 相 加 ， 得 到 的 情形 如 图 3-43 b 所 示 。 下 一 条 指 
A>, ADD r2,r2,r0,LSL #8, 把 r0 的 最 低位 字 节 复制 到 r2 的 第 8 一 15 位， 因为 r0 先 被 左 移 
了 8 位 。 由 于 移入 ro 的 都 是 零 ， 所 以 该 操作 不 影响 r2 的 第 0 一 7 位 (参见 图 3-44 )。 这 一 
阶段 已 经 把 r0 和 rl 的 最 低 字 节 插 入 r2 中 。 


a) 寄存 器 的 初始 状态 
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若 要 交换 r2 的 高 16 位 和 低 16 位 ， 可 以 执行 指令 Mov r2,r2,ROR #16。 该 操作 在 完成 
了 16 位 循环 移 位 之 后 将 r2 复制 到 自身 。 由 于 循环 操作 是 非 破坏 性 的 ， 所 以 不 会 丢失 任何 信 
息 ，r2 高 16 位 被 移 到 了 它 的 低 16 位 中 。 图 3-43 d 将 来 自 r0 和 rl 的 字 节 拼接 到 r2 的 高 16 
位 ， 而 r2 的 低 16 位 保持 不 变 。 图 3-44 展示 了 该 代码 段 执 行 时 模拟 器 的 输出 。 


AREA BytePermute, CODE, 
ENTRY 
LDR rO, =0x00000078 setup ro im 


LDR ri, =Ox000000EF gsetup rl Ml 
LDR r2, =0x11223344 setup r2 Oil 
ADD r2,ri,r2, LSL #16 
ADD r2,r2,r0, LSL #8 
MOV r2,r2, ROR #16 





3.9.3 FTA 


数据 操作 的 另外 一 个 例子 是 将 大 端 格 式 (big-endian) 的 数据 保存 在 小 端 格式 ( little- 
endian) 的 存储 器 中 (4/24 A (endianism) 将 在 3.11.1 节 讨 论 ， 它 关心 的 是 存储 器 中 字 节 
的 排列 顺序 一 一 大 端 格 式 将 字数 据 的 最 高 字 节 放 在 地 址 最 低 的 存储 单元 中 ， 而 小 端 格式 则 把 
字数 据 的 最 低 字 节 存 放 在 地 址 最 低 的 存储 单元 里 )。 假 设 需 要 重新 排序 的 数据 在 r0 中 ， 值 为 
OxABCDEFGH, rl 为 工作 寄存 器 。 下 面 的 代码 (来 自 ARM 文献 ) 实现 了 这 一 操作 ， 它 生成 
了 新 的 顺序 0xGHEFCDAB( 即 按 字 节 翻转 )。 每 个 操作 的 注释 字段 揭示 了 数据 是 如 何 变化 的 。 


EOR  r1,r0,r0, ROR #16 ; AME, BOF, cOc, DOH, EMA, FOB, G@c, 
H®D 

BIC rl,ri, #0x00FF0000 ; A®E, BOF, 0, 0, EMA, F®B, G@c, H®D 

MOV x0,r0,ROR #8 ; G, H, A, B, C, D, E, F 

EOR x0,r0,rl, LSR #8 ; 在 LSR #8 之 后 rl 为 0, 0, AME, BOF, 0, 0, EMA, 

F®B 

; G, H AÐA®E, B® BOF, C, D, E®QE®A, 
FOrF@sB 


; G, H, E, F, C, D, A, B 


请 注意 表达 式 ADADESHTE, AAAGAHO, MOOE=E, 
3.9.4 乘 以 2 一 1 或 2+1 


ARM 在 加 法 或 减法 之 前 对 操作 数 进 行 移 位 的 能 力 为 实现 乘 以 2 -1 或 2+1 操作 提供 了 
一 种 简便 的 方法 。 请 考虑 下 面 的 代码 段 ， 它 使 用 了 这 一 特点 和 条 件 执行 。 


;IF x > y THEN p = (27 + 1)q 
; ELSE IF (x = y) p = 27-q 
ELSE p = (22 - 1)-q 


CMP  r2,r3 ; 比较 x 和 y 

ADDGT r4,rl1,r1, LSL #n ; WH > 则 计算 p =q- (2” + 1) 
MOVEQ r1,r1, LSL #n  ; WR = 则 计算 P = q- 2” 
RSBLT r4,r1,r1, LSL #n ; WH < 则 计算 p =q- (2” - 1) 
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3.9.5 多 条 件 的 使 用 


假设 正在 处 理 文本 ， 需 要 检查 命令 ， 而 命令 有 时 大 写 ， 有 时 小 写 。 一 种 处 理 的 方法 是 
把 所 有 的 文本 转换 为 同一 格式 。 在 这 个 例子 里 ， 所 有 文本 将 被 转换 为 小 写 。 第 5 位 为 0 的 
ASCH 字符 为 大 写字 母 ， 为 1 的 则 为 小 写字 母 。 大 写字 符 很 容易 检测 ， 因 为 它们 都 是 连续 
AY, DA“ A” FR, 到 “Z” 结 束 。 假 设 要 转换 的 字符 在 r0 中 ，r0 的 其 余 位 都 被 清 零 ， 代 
码 编写 如 下 : 


CMP r0,#'A! ; 是 否 在 大 写字 母 范围 以 内 
RSBGES r1,r0,#’2' ; 如 果 大 于 等 于 A， 则 检查 小 于 等 于 Zz 并 更 新 标志 位 
ORRGE r0,r0,#0x0020 ; FEAF ZZE, WHS 5 位 置 为 1 强制 为 小 写 


第 一 条 指令 检查 字符 是 “A” 还 是 更 大 。 若 是 ， 则 检查 第 二 行 字符 是 否 小 于 等 于 “2Z”。 
请 注意 这 个 测试 仅 当 r0 中 的 字符 大 于 等 于 “A” 时 才 会 执行 ， 而 且 这 里 使 用 了 逆 减 法 指令 ， 
因为 要 测试 的 是 字符 “Z” 是 否 为 正 。 该 助 记 符 的 含义 就 是 “如 果 大 于 等 于 则 进行 逆 减 法 并 
更 新 结果 的 状态 位 。” 最 后 ， 如 果 在 范围 内 ， 则 执行 条 件 或 指令 ， 完 成 大 小 写 转换 。 


3.96 ”只 用 一 条 指令 

下 面 看 看 一 个 ARM 指令 不 太 常用 的 应 用 ， 它 既 能 说 明 ARM 指令 集 的 强大 功能 ， 也 反 
映 出 ARM 指令 所 编写 代码 的 字面 含义 不 是 很 清晰 这 一 问题 。 请 考虑 操作 BIC ro, ro, ro, ASR 
#31, 

这 条 指令 做 了 什么 呢 ? BIC 对 第 一 个 操作 数 和 第 二 个 操作 数 的 逻辑 反 进 行 逻辑 与 (AND) 
操作 。 在 这 个 例子 里 ， 第 一 个 操作 数 和 第 二 个 操作 数 都 由 寄存 器 r0 指定 。asR #31 是 将 第 二 
个 操作 数 算术 右 移 31 位 。 算 术 右 移 会 传播 符号 位 ; 在 这 个 例子 里 ， 经 过 31 次 右 位 ， 第 二 个 
操作 数 将 只 含有 符号 位 的 32 份 拷贝 。 如 果 该 数 为 正 ， 则 第 二 个 操作 数 为 0 ; 如 果 该 数 为 负 ， 
则 第 二 个 操作 数 为 111,…,11。 

由 于 arc 会 将 第 二 个 操作 数 取 反 ， 如 果 一 开始 r0 为 正 数 ， 则 r0 与 000,…,00 的 反 码 进 
行 逻辑 与 操作 的 结果 就 是 r0。 如 果 r0 为 负数 ， 则 r0 与 0000,…,00 进行 逻辑 与 操作 ， 结 果 就 
是 零 。 即 该 操作 实现 了 : 


If (x < 0) x = 0; 


3.9.7 ”实现 多 段 程序 
请 考虑 高 级 语言 的 switch 语句 。 例 如， 


switch (i) { 
case 0: do action; break; 
case 1: do action 1; break; 


case n: do action n; break; 
default: exception 


} 
下 面 利 用 ARM 的 程序 计数 器 相对 寻 址 方式 来 实现 这 一 功能 。 寄 存 器 r0 包含 选择 器 式 即 
case 值 )。 


RDR rl, Case ; 将 跳 转 表 地 址 加 载 到 ri 中 
CMP ro, #maxCase ; switch 变量 是 否 在 范围 内 


ADDLE pe,rl,r), LSL #2 ; #H OK, MRAM OH case 处 理 
; 这 里 是 缺 省 的 异常 处 理 代 码 
Case B cased ; 从 case 表 跳 转 到 实际 代码 
B casel 
B casen 


这 段 程序 的 关键 是 指令 ADDLE pc,ri,r0,LsL #2， 它 就 是 计算 机 的 goto 语句 ( 即 它 修改 
了 PC 的 值 ， 因 而 改变 了 下 一 条 要 执行 的 指令 )。 这 条 指令 是 条 件 执行 的 ， 所 以 如 果 ro 中 的 
switch 变量 值 (由 前 一 条 语句 测试 ) 超出 了 范围 ， 则 跳 转 语句 不 会 被 执行 ， 而 去 执行 缺 省 的 
case 代码 。 如 果 变 量 值 在 范围 内 ， 则 将 它 乘 以 4， 因为 case 表 中 的 每 一 个 跳 转 地 址 都 是 4 个 
字 节 。 幸 运 的 是 ， 没 有 必要 将 r0 中 的 数 乘 以 4， 因 为 把 ro 中 的 第 二 个 操作 数 左 移 两 位 即 可 。 
该 指令 把 rl 的 值 ( 即 case 表 的 地 址 ) 加 上 case 偏 移 量 后 加 载 到 程序 计数 器 中 ， 这 样 就 可 以 
跳 转 到 相应 的 地 址 处 。 可 以 将 一 条 跳 转 指令 放 在 case 表 中 相应 的 位 置 ， 它 的 目的 地 址 就 是 
实现 了 这 一 特定 case 的 实际 代码 。 


3.9.8 ”简单 位 级 逻辑 操作 


假设 寄存 器 的 最 低 4 位 为 p, q, T, S, (XXXX XXXX XXXX XXXX XXXX XXXX XXXX pqrs, ) 位 
于 寄存 器 的 低位 ， 且 和 希望 实现 以 下 算法 


Lf ({p == L) && (f == 1)) 8 = lẹ 

如 果 ro 中 的 字数 据 包含 p，q, r 和 s，rl 用 作 工 作 寄存 器 ， 则 可 以 写 出 下 面 的 代码 
ANDS r1,r0,#0x8 ; 清除 zl 中 所 有 位 ,将 ro 复制 到 pp 

ANDNES xz1,r0,#0x2 ; 如 果 p = 1， 则 清除 r1 中 除 = 位 外 的 所 有 位 

ORRNE 4x0,r0,#1 ; wRr-=1, Ws = 1 


请 注意 这 里 是 怎样 使 用 ARM BZ RS ARP, A TA A 
时 第 三 行 才 会 被 执行 。 还 请 注意 ， 第 二 行 指令 anes rl,zo,#ox2 的 执行 取决 于 第 一 条 指令 
的 结果 ， 而 指令 添加 的 后 级 S 使 第 三 条 指令 依赖 于 该 指令 的 结果 。 


3.9.9 十 六 进 制 字符 转换 


有 时 必须 在 4 位 二 进 制 值 和 对 应 的 ASCII 字 符 之 间 进 行 转换 。 也 就 是 要 把 0000, 
(Oi) ~ 1111, (Fy) 之 间 的 数 转 换 成 “0” 一 “F” 之 间 的 相应 字符 。 数 字 字 符 “0” 一 “9” 
对 应 的 ASCII 码 为 30 一 396， 字 母 字符 “A” 一 “F” 的 对 应 的 ASCII 码 分 别 为 41 一 46。 
下 述 算 法 把 0 一 9 之 间 所 有 的 数 加 30, 转换 成 ASCII 码 ， 然 后 再 将 10 ~ 15 之 间 的 数 加 7。 


character = hexValue + $30 
if (character > $39) character = character + 7 


ADD r0, ro, #0x30 ; 加 0x30 把 0 一 9 之 间 的 数 转 换 成 ASCII 码 
CMP r0,#0x39 ; 检查 十 六 进 制 数 到 一 卫 
ADDGE xr0,r0,#7 ; 如 果 是 有 一 FF， 则 加 7 转换 成 ASCII 码 


3.9.10 ”输出 十 六 进 制 字符 

在 编写 汇编 语言 程序 时 ， 经 常 希望 以 十 六 进 制 格式 将 寄存 器 的 内 容 输出 到 控制 合 上 。 为 
了 做 到 这 点 ， 必 须 反 复 使 用 上 面 介绍 的 算法 。 下 面 的 子 程序 以 十 六 进 制 格式 将 寄存 器 rl 的 
内 容 打印 到 控制 台 上 ， 打 印 由 操作 系统 调用 完成 。Keil 模拟 器 不 支持 控制 侣 MO。 
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MOV r2, #8 ; REPEAT (8X, r2 为 循环 计数 器 ) 
NxtDig MOV r0,r1, LSR #28 ; 取 4 位 
ADD ro, ro, #0x30 ; ”转换 为 字符 


CMP r0,#0x39 
ADDGE 1r0,r0,#7 


svc ( ; WA O/SHT WEF 

MOV rl,ri, LSL #4 ; #4 fe 

SUBS r2,r2, #1 ; ”循环 计数 器 减 1 

BNE NxtDig ; Until 8 个 半 字 节 打 印 完毕 


这 里 使 用 了 操作 系统 调用 sve o 完成 打印 操作 一 一 ARM 模拟 器 通过 该 指令 提供 的 机 制 
SHPREH., sve 以 一 个 数 作为 参数 (本 例 中 为 0 )， 可 由 软 中 断 处 理 程序 调用 。 下 一 个 例子 
也 使 用 了 这 一 技术 。 


3.9.11 打印 横幅 


下 面 的 子 程序 将 打印 一 个 横幅 (一 个 ASCII 码 字符 串 )， 它 以 空 字 节 00,。 结束 。 在 这 个 
例子 里 ， 字 符 串 后 面 跟着 换行 符 和 回 车 符 ， 使 光标 移 到 下 一 行 的 开头 。 这 段 代 码 使 用 软 中 断 
sVc， 调 用 操作 系统 功能 完成 打印 。 请 注意 对 终止 字符 使 用 两 个 连续 测试 的 方法 ， 这 是 ARM 
开发 系统 的 特点 ， 而 不 是 ARM 体系 结构 的 。 对 于 一 个 字符 ， 如 果 它 不 是 零 ，svcNE writec 
会 将 它 打印 出 来 。 下 一 条 指令 ，BNE Banner1， 对 同一 条 件 进行 测试 以 确定 是 否 转 移 。 目 前 
还 没有 讨论 mr 指令 。 该 指令 将 一 个 字 节 加 载 到 寄存 器 中 。 请 注意 后 递增 是 1 个 字 节 而 不 
是 4 字 节 。 


Banner ADR r1,String ; IX1 指向 要 打印 的 字符 串 ( 请 注意 ADR 的 使 用 ) 
Bnnerl LDRB roO, [r1], #1 ; ERF, Waw 
CMP ro, #0 ; 字符 为 0 (终止 字符 ) ? 
SVCNE Writec ; 不 是 则 打印 (使 用 O/S SWI 功能 ) 
BNE Bnnerl ; 不 是 则 在 打印 后 跳 转 
MOV pe,r14 ; 为 零 则 返回 
String = ‘This is a test”,&0A,&0D,0 
Writec EQU 0 ; 打印 字符 的 SVC 代码 为 0 
访问 ARM 控制 寄存 器 


ARM 的 控制 寄存 器 中 含有 状态 和 系统 信息 位 ， 用 户 和 操作 系统 都 需要 访问 该 寄存 
器 。 有 两 条 指令 能 访问 CPSR 状态 寄存 器 : MRS rd,cPsR 将 CPSR 复制 到 寄存 器 rd 中 ; 
上 一 指令 的 逆 操作 MSR cPSR,rs 将 寄存 器 Ts 的 内 容 或 立即 数 复制 到 CPSR Po 

如 果 ARM 工作 在 用 户 模 式 下 ， 指 令 MSR cPsR,rs 不 能 将 数据 复制 到 CPSR， 这 会 改 
变 CPSR 的 状态 位 。 在 用 户 模式 下 ， 只 有 条 件 码 标 志 Z，N，,C 和 VV 可 以 被 改变 。 也 可 
使 用 MRs rd,SPSR fo MSR SPSR, rs 这 两 条 指令 来 访问 SPSR (备份 处 理 器 状态 寄存 器 )。 

| 假定 要 将 CPSR 中 的 进位 位 C 清 零 ， 例如， 根据 子 程序 的 返回 值 判 断 是 否 产 生 了 错 

Ro Fm ARM 代码 实现 了 这 一 功能 。 


ExitOK MRS  x0,CPSR ; 把 CPSR 复制 到 zx0 中 
BIC  r0,ro, #0x2000 ; 清除 第 29 位， 即 进位 位 
MSR CPSR, r0 ; 将 其 送 回 CPSR : 
MOV  r15,r1i4 ; 通过 恢复 保存 的 PC 返回 (指示 无 错误 ) 
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3.10 FRR SK 
现在 介绍 栈 如 何 支持 子 程序 调用 和 返回 结构 ， 以 及 ARM 的 栈 处 理 指令 。 栈 是 一 种 数据 
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结构 ， 一 个 后 进 先 出 (LIFO) 的 队列 ， 数 据 项 从 一 端 进入 ， 以 相反 次 序 离开 。 微 处 理 需 中 的 
栈 由 栈 指 针 指 向 存储 器 中 的 栈 顶 来 实现 。 当 数据 项 添加 到 栈 里 (入 栈 ) 时 ， 栈 指针 向 上 移动 ; 
当 数据 项 从 栈 里 移出 (出 栈 ) 时 ， 栈 指针 向 下 移动 。 


栈 及 其 方向 

栈 的 向 上 、 向 下 和 生长 的 含义 是 一 些 容易 混淆 的 特征 。 计 算 机 栈 与 日 常生 活 中 的 栈 
类 似 。 如 果 有 一 和合 期刊 杂志 ， 将 一 本 新 的 期 刊 放 在 栈 顶 ， 栈 就 会 生长 。 在 计算 机 存储 器 
中 也 是 如 此 ; 向 栈 中 放 入 一 个 新 的 数据 项 会 使 它 生长 。 

把 一 页 纸 的 顶端 看 作 向 上 ， 而 将 底 端 看 作 向 下 。 在 纸 上 画 出 计算 机 的 栈 时 ， 它 会 向 
页 的 顶端 增长 。 然 而 ， 由 于 行 号 一 般 从 页 的 顶端 开始 向 下 编号 ， 所 以 在 提 及 栈 增 长 时 ， 
即便 栈 是 向 上 生长 的 ， 也 可 能 向 较 低 的 地 址 生长 。 例 如 ， 如 果 栈 顶 地 址 为 0x001234 并 
将 返回 地 址 入 栈 ， 则 栈 将 向 上 生长 到 地 址 0x001230 处 。 

有 些 作 者 采用 相反 的 约定 ， 把 高 地 址 放 在 页 的 顶端 ， 栈 向 下 生长 则 是 向 页 底 端 低地 
址 方向 生长 ! 所 以 ， 栈 是 向 上 还 是 向 下 生长 取决 于 如 何在 纸 上 画 出 它 。 

HWE, 事情 变 得 有 些 糟 粒 了 。 栈 可 能 向 高 地 址 方向 也 可 能 向 低地 址 方向 生长 。 这 取 
决 于 计算 机 采用 和 何 种 方法 实现 栈 。 当 有 人 说 栈 向 上 移动 ， 他 们 说 的 是 纸 的 方向 还 是 栈 地 
址 数值 上 增长 呢 ? 这 很 难说 。 因 此 ， 当 读 到 栈 或 者 实现 它们 时 ， 要 意识 到 这 些 问题 。 





图 3-45 展示 了 构建 栈 的 4 种 方法 。 实 现 栈 时 需要 做 出 的 两 个 决定 ; 一 是 当 数 据 项 进 
栈 时 栈 是 向 低地 址 方向 向 上 生长 (图 3-45a 和 图 3-45b) 还 是 向 高 位 地 址 方向 向 下 生长 (图 
3-45c 和 图 3-45d)。 请 注意 术语 TOS 表示 栈 项 (top of stack)， 指 明了 栈 里 的 下 一 个 数据 项 。 
该 图 表明 用 栈 来 保存 子 程序 调用 后 的 返回 地 址 。 


栈 的 初始 状态 子 程序 调用 后 接着 RTS 指令 
返回 地 址 进 栈 返回 地 址 出 栈 
a) 栈 向 上 生长 。 
栈 指针 指向 栈 顶 n-8 n-8 “8 
(TOS) n-4 4 4 
n 


c) 栈 向 下 生长 。 
栈 指针 指向 栈 顶 
(TOS) 


d) 栈 向 下 生长 。 
栈 指针 指向 第 一 
个 空白 位 置 


n+4 
n+% 


b) 栈 向 上 生长 。 a 
栈 指针 指向 第 一 
个 空白 位 置 ity š 
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存储 器 按照 字 节 编 址 ， 栈 里 元 素 为 32 位 (4 字 节 ) 
图 3-45 可 能 的 栈 结构 
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另外 一 个 决定 是 栈 指针 是 指向 当前 位 于 栈 顶 的 数据 项 (图 3-45a 和 图 3-45c) 还 是 指向 栈 
顶 上 的 第 一 个 空白 位 置 (图 3-45b 和 图 3-45d)。 栈 的 实际 排列 不 重要 ; 最 重要 的 问题 是 行为 
必须 一 致 。 设 计 栈 的 实际 问题 是 用 于 将 数据 入 栈 的 寻 址 方式 是 自动 递增 的 还 是 自动 递减 的 ， 
栈 调整 是 在 数据 进 栈 之 前 还 是 之 后 。 

图 3-46 描述 了 一 个 栈 指针 指向 栈 顶 项 的 栈 ， 以 及 当 一 个 项 被 添加 到 栈 中 时 〈 进 栈 )， 栈 
指针 将 会 递减 。 当 从 栈 顶 移出 一 项 时 ， 栈 指针 所 指 位 置 的 项 被 移 除 ， 栈 指针 递增 。 顺 便 说 一 
句 ， 这 样 的 操作 被 称 为 原子 的 ， 因 为 它 不 能 被 中 断 〈 即 计算 机 不 能 操作 栈 指 针 ， 只 能 先 做 其 
他 的 事情 然后 访问 栈 )。 这 对 于 确保 栈 的 完整 性 来 说 是 必要 的 。 我 们 用 栈 指 针 SP 来 定义 人 栈 
和 出 栈 的 动作 ， 如 下 : 

PUSH: [SP] < [SP] - 4 ; 栈 指针 向 上 移动 一 个 字 

[[SP]] < data ; 数据 入 栈 
POP: data + [[SP]] ; 数据 出 栈 
[SP] < [SP] + 4 ; 栈 指针 向 下 移动 一 个 字 

注意 栈 指针 是 按照 4 个 字 节 递减 或 递增 ， 因 为 按照 约定 存储 器 按照 字 节 编 址 ， 栈 的 数据 

项 长 为 一 个 字 (4 字 节 )。 


n-8 n-8 Š 5 

n-4 n-4 n-4 2 

E 

n n n 8 

a) 栈 的 初始 状态 b) 返回 地 址 进 栈 c) 接着 RTS 指令 返 È 
回 地 址 出 栈 @ 


图 3-46 ”用 栈 保 存 返回 地 址 


3.10.1 子 程序 调用 与 返回 


可 以 通过 先 将 返回 地 址 人 栈 ， 然 后 跳 转 到 分 支 目标 地 址 处 来 实现 子 程序 调用 。 该 操作 在 
CISC 处 理 器 中 由 JSR target 或 BsR target 指令 来 实现 。 由 于 ARM 没有 实现 这 一 操作 ， 因 
此 需 通过 下 述 指令 来 实现 该 指令 。 

， o; 假设 栈 朝 低地 址 方向 生长 且 SP 指向 栈 的 下 一 个 数据 项 


SUB 4r13,r13,#4 ; 栈 指针 先 递 减 

STR r15, [r13]; ; 返回 地 址 入 栈 

B Target ; 跳 转 到 目标 地 址 
; 在 这 里 返回 


一 卓 执 行 完 子 程 序 中 的 代码 ， 就 会 执行 子 程序 返回 指令 Rrs， 且 程序 计数 器 将 恢复 到 指 
令 BSR Proc_A 被 取出 之 后 的 那个 点 。RTs 指令 的 作用 是 : 


RTS: [PC] < [[SP]] ; 把 栈 中 的 返回 地 址 复制 到 PC 
[SP] + [SP] + 4 ; 调整 栈 指针 


在 图 3-46 中 ， 栈 将 向 上 移动 4 个 字 节 ， 因 为 每 个 地 址 都 是 4 个 字 节 。 由 于 ARM 不 支 
持 基 于 栈 的 子 程序 返回 机 制 ， 则 代码 应 写 为 


LDR r12, [r13],#+4 ;取出 保存 的 PC， 栈 指针 后 递增 
SUB r15,r12,#4 ; 修正 PC 并 将 其 加 载 到 ris 中 以 返回 


该 操作 将 从 栈 顶 读 出 返回 地 址 并 且 增加 栈 指针 ， 将 已 保存 的 PC 出 栈 并 恢复 到 寄存 器 r15 


O 在 后 面 会 看 到 ARM 有 块 移动 指令 ， 能 够 高 效 地 在 一 个 或 多 个 寄存 器 与 栈 之 间 传 送 数据 。 
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中 。 然 而 ， 必 须 修 改 保存 的 PC， 因为 它 指向 实际 返回 地 址 之 后 4 FME (HF ARM 的 
整数 流水 线 )。 然 后 将 PC 加 载 到 r15， 强 制 从 子 程序 中 返回 。 图 3-47 说 明了 执行 该 代码 后 
ARM 模拟 器 的 输出 。 代 码 执 行 后 显示 了 代码 窗口 、 反 汇编 窗口 、 寄 存 融 和 窗口 和 存储 右 窗 口 。 








实践 
| 尽管 上 面 的 子 程序 调用 方法 可 以 工作 ， 但 是 有 一 个 更 好 的 使 用 ARM 块 移动 指令 的 
| 机制， 该 机 制 符合 ARM 的 编程 标准 ， 即 : 


` STMIA sp! {r6,1r} ; re 和 链接 寄存 器 入 栈 
; 这 里 是 子 程序 代码 
Lome sp! {x6,pc} ; re 出 栈 并 取出 PC 
; 返回 地 址 出 栈 


; XA] PC 以 返回 
在 第 4 章 会 更 详细 地 讨论 栈 。 
仔细 察看 存储 器 窗口 会 发 现在 栈 的 左 侧 地 址 为 0x70 处 的 值 是 0x00000014， 它 就 是 之 前 


保存 的 PC。 既 然 已 保存 的 PC 是 返回 地 址 加 4， 实 际 返 回 地 址 就 是 0x00000010。 现 在 ， 从 
反 汇 编 代码 可 以 看 到 在 0x00000010 处 的 指令 是 Mov zo,#oxFF， 它 就 是 正确 的 返回 点 。 






SUA rł3 ri ement 
E24DD004 SUB mia RIJ, ra0000004 
STR rid; {ris}; 
area PC, misy 
6; et Jump to 
05000C Ea0000 9x02900020 
FE 


3 Forrer 
Oxo 02 ESAD! 09 FF oy 


HOV r0, 
2 pii- s moy 1G, #0; 
=0%20026 


ARBRAVZRARVAVBZ 


riz, #4 
下 24CCD8 sw R12, R12, #0x0' 
OV  ris,ri2 





ARM” Software 





图 3-47 ARM 子 程序 调用 与 返回 


3.10.2 FRAFRE 


栈 的 一 个 重要 特性 就 是 它 支 持 谈 套子 程序 ， 即 其 中 一 个 子 程序 可 以 调用 其 他 的 子 程序 。 
当 一 个 子 程序 完整 地 嵌入 到 另外 一 个 子 程 序 中 时 ( 即 ， 如 果 调 用 一 个 子 程序 ， 总 是 立即 返回 
到 调用 点 后 下 一 条 指令 )， 子 程序 就 是 艇 套 的 。 从 一 个 点 调用 子 程序 ， 而 从 子 程序 返回 到 一 
个 完全 不 同 的 点 ， 这 被 认为 是 一 个 很 差 的 编程 习惯 。 

图 3-48 说 明了 说 套 子 程序 的 概念 。 带 阴影 的 方 框 显 示 了 一 个 子 程序 嵌 套 在 另 一 个 子 程 
序 中 的 情形 ， 而 且 图 右 侧 的 行 说 明了 这 个 例子 中 不 同 子 程序 之 间 的 控制 流 。 这 个 安排 是 假设 
CISC 处 理 器 支持 基于 栈 的 子 程序 调用 与 返回 机 制 。 
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子 程序 
Main body 1 2 3 4 


调用 子 程序 5 


返回 到 子 程序 4 
调用 子 程序 6 





返回 到 子 程序 4 
返回 到 子 程序 3 
返回 到 主 程序 

p ir z RE 


[813-48 ETTET i 


图 3-49 WH T EREE ERAR TY kK SBR PRE. EEF TEF A 
并 将 返回 地 址 人 栈 。 在 子 程序 A WMT, SWABS, WERTE B。 子 程序 A 
中 的 返回 地 址 会 和 人 栈 ， 然 后 跳 转 到 子 程序 B 中 。 图 3-49 显示 了 调用 和 返回 过 程 中 栈 的 状态 。 
正如 读者 所 看 到 的 ， 返 回 地 址 按照 号 人 栈 相反 的 次 KIF HER o 
正常 的 代码 执行 
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两 次 调用 和 返回 期 间 栈 的 状态 
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图 3-49 栈 与 杠 套 子 程序 (CISC 处 理 器 ) 
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到 目前 为 止 还 没有 涉及 参数 传递 的 任何 细节 一 一 这 一 内 容 将 在 下 一 章 中 介绍 。 然 而 ， 值 
得 指出 的 是 栈 不 仅仅 被 用 于 管理 子 程序 返回 地 址 ， 也 被 用 于 管理 与 子 程序 之 间 的 参数 传递 ， 
以 及 子 程序 的 局 部 变量 管理 。 


3.10.3 ”叶子 程序 


ARM 文献 中 经 常 提 及 叶子 程序 (leaf routines)。 叶 子 程序 不 调用 其 他 子 程序 ( 即 它们 
处 于 树 的 末端 )。 当 对 带 有 通用 栈 结构 与 子 程序 调用 和 返回 指令 的 CISC 处 理 器 进行 编程 时 ， 
不 必 担 心 返回 地 址 。RISC 处 理 器 没有 对 子 程序 调用 与 返回 提供 直接 的 栈 支 持 ， 这 人 迫使 程序 
员 必 须 了 解 这 一 细微 的 差别 。 

如 果 使 用 aL 指令 调用 一 个 叶子 程序 ， 则 返回 地 址 将 被 保存 到 链接 寄存 器 r14 而 不 是 栈 
中 。 返 回 到 调用 点 由 指令 Mov pec,1r 实现 。 然 而 ， 如 果 该 子 程序 不 是 叶子 程序 ， 不 保存 链接 
寄存 器 就 不 能 调用 其 他 子 程序 。 下 述 代 码 段 说 明了 这 是 如 何 做 到 的 。 


BL XYZ ; 调用 一 个 简单 的 叶子 程序 
BL  XYZI ， 调 用 一 个 子 程序 ; CAMA ARETE 
XYZ saui ; 代码 (这 是 叶子 程序 ) 
Mov  po,lr ; 将 链接 寄存 器 复制 到 PC 并 返回 
XYZ1 STMFD sp!, {r0-r4,1r} ; 保存 工作 寄存 器 和 链接 寄存 器 
BL xyz ;调用 XYZ- 这 会 覆盖 旧 的 链接 寄存 器 
LDMFD sp!, {r0-r4, pc} ; 恢复 寄存 器 并 强制 返回 


子 程序 XYZ 是 叶子 程序 ， 它 不 会 调用 骨 套 子 程序 ， 因 此 无 需 担 心 链接 寄存 器 rl14， 而 且 
执行 指令 Mov pc,1r 就 可 以 返回 。 然 而 子 程序 XYZ1 A REP, ASM XZY1 返回 ， 
就 必须 保存 链接 寄存 器 。 保 存 链接 寄存 器 最 简单 的 方法 就 是 将 其 人 栈 。 本 例 使 用 一 条 存储 多 
寄存 器 指令 ， 也 保存 了 寄存 器 r0 ~ r4。 当 从 XYZ1 返回 时 ， 则 恢复 寄存 器 并 且 把 保存 的 rl4 
(链接 寄存 器 里 的 返回 地 址 ) 加 载 到 程序 计数 器 。srMFp 和 Lomen 分 别 是 ARM 的 多 寄存 器 入 栈 
和 出 栈 指 令 ， 它 们 分 别 将 一 个 寄存 器 块 人 栈 或 出 栈 。 本 章 后 面 会 进一步 讨论 这 些 指 令 。 


3.11 数据 的 大 小 与 排列 


我 们 的 下 一 个 话题 与 组 织 和 访问 数据 的 方法 有 关 。 我 们 对 存储 器 中 的 位 和 字 节 排列 〈 端 
格式 ) 以 及 数据 元 素 的 访问 和 处 理 方法 感 兴趣 。 


3.11.1 数据 组 织 与 端 格式 


一 般 认为 数据 在 存储 器 中 的 存储 方式 是 一 个 无 关 紧 要 的 问题 ( 即 只 要 一 个 接 一 个 地 将 
数据 保存 起 来 就 可 以 )。 例 如 ， 十 进 制 计 算 机 按照 1、9、8、4 或 4、8、9、1 的 顺序 保存 数 
1984。 然 而 ， 位 和 字 节 的 编号 方法 会 引起 使 用 不 同方 法 存储 数据 的 处 理 器 系列 之 间 的 不 兼 
容 。 首 先 来 看 字 节 的 编号 方法 。 图 3-50 显示 了 如 何 从 0 一 2--1 对 存储 器 中 的 字 节 进行 编号 。 

字 编 号 是 通用 的 ， 所 有 计算 机 都 把 存储 器 中 第 一 个 字 编 号 为 字 0， 最 后 一 个 字 编 号 为 
2 一 1。 然 而 处 理 器 之 间 的 位 编号 是 不 同 的 。 图 3-51a 显示 了 从 右 到 左 的 编号 ， 类 似 于 人 们 将 
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数字 的 最 低位 写 在 右边 。 绝 大 多 数 微 处 理 器 (例如 ARM, Intel 和 Freescale) 都 采用 同样 方 
法 ， 从 字 的 最 低位 (lsb)， 就 是 第 0 位， 到 最 高 位 (msb)， 就 是 第 m—-1 位， 对 字 中 的 各 位 进 
行 编号 。 有 些微 处 理 器 ， 比 如 PowerPC， 则 与 这 个 方案 相反 ， 如 图 3-51b 所 示 。 





字 节 0 
字 节 1 
字 节 2 
[7]6|5]4]3/2]1 o 
地 址 增加 方向 m a) 最 低位 在 右 侧 的 。 = 
§ 位 编号 a 
| 字 季 1| 字 节 2| …… | 字 节 2"-1| £ E 
Z eee 3 DTEEGTTTDI » 
存储 器 数组 eae S b) 最 低位 在 左 侧 的 。 生 
a) 存储 单元 作为 数组 b) 存储 器 结构 8 位 编号 @ 
图 3-50 存储 器 数组 的 字 节 编号 图 3-51 字 节 的 位 编号 


与 字 节 中 位 的 组 织 方法 一 样 ， 人 们 必须 考虑 字 中 各 字 节 的 组 织 方 法 。 图 3-52 表明 可 以 
使 用 两 种 方法 对 字 中 的 字 节 编号 。 要 么 将 最 高 字 节 放 在 字 的 最 高 位 字 节 地 址 处 ， 要 么 将 最 
高 字 节 放 在 字 的 最 低位 字 节 地 址 处 。 如 果 将 最 高 字 节 放 在 最 低地 址 ， 这 种 顺序 叫 作 大 端 格 
式 (big endian) ©; 如 果 将 最 高 字 节 据 放 在 最 高 字 节 地 址 ， 这 种 顺序 叫 作 就 是 小 端 格 式 (little 


endian) 。 





存储 地 址 存储 器 中 所 存放 
字数 据 的 位 排列 = 
n +1 n+2 n+3 n n+l n+2 n+3 2 
fi 24-31 {216-23 位 8-15 位 0 7 位 0-7 “位 8-15 他 16=23 3 
a) 最 高 位 字 节 数据 存放 在 最 低位 字 节 地 址 (大 b) 最 低位 字 节 数据 存放 在 最 低位 字 节 地 址 (小 F 
端 格 式 ) 端 格式 ) © 


图 3-52 将 4 个 字 节 加 载 到 存储 的 长 字 中 


Intel 微 处 理 器 把 最 高 字 节 放 在 最 高 位 字 节 地 址 处 (小 端 排 列 )， 而 Freescale 微 处 理 器 则 
把 最 高 字 节 放 在 最 低 字 节 地 址 处 (大 端 排列 ) 。 尽 管 读 者 很 容易 认为 这 个 问题 无 关 紧要 并 且 
是 个 习惯 问题 ， 但 它 对 于 程序 员 和 硬件 设计 师 却 十 分 重要 。 首 先 它 会 导致 编程 错误 ， 其 次 它 
使 得 基于 Intel 系统 的 接口 比 基 于 Freescale 系统 的 复杂 。 若 要 将 大 端 格 式 的 处 理 器 和 小 端 格 
式 的 处 理 器 连接 在 一 起 〈 比 如 在 多 处 理 器 网 络 中 共享 一 个 存储 块 ) 则 必须 确保 按照 正确 次 序 
传送 字 节 ， 要 么 通过 软件 要 么 通过 特殊 接口 硬件 重新 排列 需要 移动 的 数据 。 

图 3-53 显示 了 ARM 存储 器 中 大 端 和 小 端的 字 节 组 织 方 式 。ARM 处 理 器 既 可 以 被 配置 
为 大 端 格式 也 可 以 被 配置 为 小 端 格 式 ， 这 一 点 很 不 寻常 。 使 用 ARM 模拟 器 时 必须 选择 一 种 
模式 一 一 本 章 使 用 大 端 格式 。 图 3-53 使 用 一 些 ARM 代码 完成 常量 处 理 。 两 种 模式 下 的 代码 
和 反 汇 编 结构 完全 一 样 。 然 而 ， 如 果 查 看 图 3-53b 和 图 3-53c 里 存储 器 中 的 代码 和 数据 ， 会 
发 现 字 节 次 序 是 完全 不 同 的 。 


O 在 乔纳森 ' 斯 威夫 特 的 《 格 列 佛 游记 》 里 ， 战 争 在 这 些 要求 剥 开 鸡 蛋 大 的 一 端 和 和 剥 开 鸡蛋 小 的 一 端 之 间 爆 发 
了 ， 导 致 许多 人 死亡 - 也 可 以 阅读 经 典 论文 《On Holy Wars and a Plea for Peace 》[Cohen80]。 
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Ci 409x0004} 
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ABER enian, CODE, READNRITE 

















1 
2 ENTRY 
3 | MOV ro#0x000000FE Aload rö 
4 MVN ri,#0x000000FE plese 
a LDR = r2,, =0x01234567 g 
WS Fa 
中 7 DCD OxBSABCDEF a 8 
8 DCE 0x11223344 4 
i 9 END = 
7 < 
a) 代码 与 反 汇 编 窗 口 
Memory 1 =a 
| 0x00000000: EF 00 AO E3 
0x00000004: E3 EO 10 FF | Ox00000004: FF 10 ED E3 
ox00000008: E5 9F 20 04 | ow 0x00000008: 04 20 OF E5 ý 
0x0000000C: 89 AB CD EF E Ox0Q00000C: EF CD AB 89 E 
fOx00000010: 11 22 33 44 点 0x00000010: 44 33 22 11 5 
0x00000014: 01 23 45 67 e 0x00090014: 67 45 23 01 a 
fox00000018: 00 09 00 90 | = jox00000018: 00 00 00 00 z 


b) ARM 大 端 格式 排列 


图 3-53 大 端 格式 和 小 端 格 式 的 


3.11.2 ”数据 组 织 和 ARM 


c) ARM 小 端 格式 排列 


Pye 


FH 


次 序 


下 面 将 更 详细 地 讨论 ARM 存储 、 处 理 和 访问 数据 的 方法 。 我 们 已 经 知道 ，ARM 存储 
器 是 按照 字 节 编 址 的 ， 连 续 的 两 个 32 位 字 地 址 相差 4 字 节 。 字 数据 必须 按照 4 字 节 字 边 界 
对 齐 存放 。 任 何 时 候 ARM 从 存储 器 中 取出 一 条 指令 ， 地 址 的 最 低 两 位 总 是 零 ， 即 指令 地 址 
的 格式 为 xxx,…,xxx00,， 它 能 确保 地 址 是 边界 对 齐 的 。16 位 数 ( 半 字 ) 按照 半 字 边界 地 址 对 
齐 。 图 3-54 说 明了 ARM 大 端 和 小 端 格式 的 字 和 半 字 的 边界 对 齐 。ARM 的 端 格 式 配 置 由 硬 
件 设置 ， 即 将 相应 引 脚 设 为 逻辑 0 或 逻辑 1。 


位 31 位 0 
00| 字 节 03; 字 节 02: 字 节 01 字 节 00 





04| 字 节 07 字 节 06! 字 节 05! 字 节 04 


08 S45 OBRH OA FH 09 字 节 08 






oc $45 OF 字 节 0E 字 节 0D 字 节 0C 


10/45 13/245 12 eae r0 


14| 字 节 17 字 节 16 字 节 15 字 节 14 
a) 小 端 格式 的 存储 器 组 织 


8 位 和 16 位 的 运算 来 自 其 load 和 store 操作 以 及 对 整数 进行 符号 扩展 的 能 力 ， 下 一 


位 31 


yy 


08 5 08 





节 09 45 OA #7 OB 


14 $14 FH 15.8 1648 17 
b) 大 端 格 式 的 存储 器 组 织 
图 3-54 ARM 小 端 和 大 端 格式 


RISC 处 理 器 一 般 仅 支 持 32 位 算术 运算 ， 不 能 只 对 寄存 器 中 的 几 位 进行 处 理 。 唯 一 的 对 
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进行 介绍 (请 参见 关于 16 位 操作 的 方 框 )。 
一 些 处 理 器 对 于 8 位 或 16 位 操作 也 能 设置 条 件 码 。 如 果 使 用 32 位 处 理 器 进行 16 位 算 
术 操 作 ， 必 须 自己 检查 溢出 和 进位 位 。 例 如 ， 如 果 在 16 位 无 符号 数 操作 期 间 将 ro 作为 目的 
操作 数 ， 可 执行 MOVs r.m, ro, LSR #16， 对 第 17 位 检查 进位 位 。 该 操作 把 ro 右 移 16 位 ， 
所 以 如 果 第 16 ~ 31 位 都 为 0， 则 存储 在 临时 寄存 器 里 的 结果 为 零 且 Z 位 置 位 。 如 果 有 进 
位 ， 临 时 寄存 器 的 值 非 零 ， 则 Z 位 清 零 。 

测试 16 位 有 符号 数 的 溢出 更 复杂 。 前 面 曾 说 过 ， 当 算术 操作 的 结果 超出 该 数 表示 的 范 
围 时 ， 算 术 溢 出 发 生 。 当 两 个 正 数 相 加 符号 位 为 1 或 当 两 个 负数 相 加 符号 位 为 0， 洲 出 发 
Es WMR 32 位 寄存 器 里 有 一 个 16 位 数 ， 要 进行 32 位 算术 操作 ， 则 ARM 从 第 31 位 的 状态 
检测 溢出 。 如 果 对 16 位 算术 操作 感 兴趣 ， 则 必须 从 第 15 位 的 状态 检测 溢出 。 考 虑 如 下 4 个 
使 用 32 位 算术 操作 进行 16 位 加 法 的 例子 。 


例 1 例 2 

两 个 正 数 的 加 法 (没有 溢出 ) 两 个 负数 的 加 法 【没有 溢出 ) 
00000000000000000010100000000000 11111111111111111011100000000000 
00000000000000000100110000000000 11111111111111111101110000000000 
+00000000000000000101010000000000 +11111111111111111001010000000000 
Bil 3 fil 4 

两 个 正 数 的 加 法 (Yat HH) 两 个 负数 的 加 法 (溢出 ) 
00000000000000000111000000000000 11111111111111111011100000000000 
00000000000000000101100000000000 11111111111111111001110000000000 
+00000000000000001101010000000000 +11111111111111110101010000000000 


可 以 用 下 面 的 代码 检测 算术 溢出 ， 如 果 数 在 范围 内 ， 会 将 Z 位 置 为 1。 


MOVS rl,r0, ASR #15 
CMNNi xl, #1 


指令 Movs ri ro,asr #15 JE ro WEAH 15 AA rl。 如 果 先 前 的 指令 将 乙 位 置 为 
0， 则 执行 指令 cMNNE ri,#1。 该 操作 将 比较 rl 和 -1， 即 测试 rl 是 否 为 1111,…,1111( 全 1 )。 
请 考虑 上 面 4 个 例子 里 这 段 代 码 的 作用 。 

例 1 


MOVS r1,r0,ASR #15 ; r1 = 0000000000000000 0111010000000000, 名 位 为 1 
CMNNE rl, #1 因为 2 位 为 I， 该 指令 不 执行 ，Z 位 继续 为 1 则 无 滋 出 


例 2 

MOVS ri1,r0,ASR #15 ; zl = 1111111111111111 1001010000000000, Zz 位 为 0 
CMNNE rl,r1, #1 ; 因为 Z 位 为 0, 该 指令 执行 ，Z 位 被 置 1 则 无 涪 出 

例 3 

MOVS r1,r0,ASR #15 ; r1 = 0000000000000000 1101010000000000, Zz 位 为 0 
CMNNE r1,rl, #1 ; 因为 名 位 为 0, 该 指令 执行 ，Z 位 继续 为 0 MH 

例 4 

MOVS r1,r0,ASR #15 ; zl = 1111111111111111 0101010000000000, zfi# 0 


CMNNE r1,ri, #1 ; 因为 2 位 为 0， 该 指令 执行 ，Z 位 继续 为 0 则 溢出 
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当 考 虑 对 齐 ( 即 字 对 齐 ， 就 是 字 的 地 址 为 其 大 小 的 整数 倍 ) 和 端 格 式 时 ， 问 题 会 变 得 更 
加 复杂 。 实 际 上 ， 这 些 问 题 是 系统 设计 细节 的 一 部 分 ， 实 践 中 工程 师 要 花费 大 量 的 时 间 处 理 
这 些 问题 。ARM 自己 的 文献 用 了 好 几 页 纸 来 描述 这 些 问 题 ， 例 如 ， 要 加 载 一 个 16 位 的 半 字 
到 寄存 器 ， 而 且 编写 程序 时 就 不 知道 数据 的 对 齐 情 况 〈 即 不 知道 程序 运行 时 指针 是 奇数 还 是 
偶数 )。 下 面 的 代码 段 先 通过 两 次 字 节 访问 来 读 取 一 个 无 符号 半 字 ， 然 后 拼接 成 数据 。 寄 存 
器 12 指向 第 一 个 字 节 ， 寄 存 器 r0 接收 半 字 (寄存 器 rl 用 作 中 间 结 果 暂 存 器 )。 


LDRB x0, [r2,#0] ; Bra 所 指 的 字 节 
LDRB ri, [r2,#1] ; 读 第 二 个 字 节 
ORR x0,r0,rl, LSL #8 ; 拼接 两 个 字 节 


请 注意 逻辑 与 指令 是 怎样 把 rl 里 的 字 节 放 到 高 地 址 ， 实 际 就 是 将 其 左 移 8 位 ， 然 后 与 
r0 里 的 低地 址 字 节 拼接 在 一 起 。 由 于 低地 址 字 节 构成 了 寄存 器 的 低位 ， 这 是 一 种 小 端 移动 。 
等 价 的 大 端 移动 代码 如 下 


LDRB ro, [r2, #0] ; 读 2 所 指 的 字 节 
LDRB ri, [r2,#1] ; 读 第 二 个 字 节 
ORR r0,r1,r0, LSL #8 ; 拼接 两 个 字 节 


拼接 前 必须 将 低地 址 字 节 向 左 移动 。 从 任意 对 齐 的 地 址 处 加 载 32 位 字数 据 的 情形 更 加 
复杂 ， 如 下 面 的 ARM 代码 所 示 。 假 设 字 数据 的 地 址 在 r0 中 ; 操作 模式 为 小 端 格式 ， 且 结果 
保存 在 rl 中 。 如 果 字 按照 字 边 界 地 址 对 齐 ， 则 可 简单 地 写 出 指令 LDR r1, [rol 。 然 而 ， 必 须 
从 存储 器 中 取出 两 个 字 ， 然 后 根据 实际 的 对 齐 格式 将 它们 的 字 节 拼接 成 一 个 字 。 


BIC r2,r0,#3 ; Russ, RRBSo~1 ft 

LDMIA r2,{r1,r3} ; 将 包含 该 字 的 64 位 数 加 载 到 寄存 器 v1 和 r3 中 
AND 4r2,r0,#3 ; 现在 按 字 节 对 齐 (在 字 中 的 偏 移 量 ) 

MOVS r2,r2,LSL #3 ; 现在 按 位 对 齐 ( 偏 移 ) 

MOVNE r1,r1,LSL r2 ; 从 低 32 位 中 读数 据 

RSBNE r2,r2, #32 ; 余下 的 偏 移 量 : 32- 偏 移 量 


ORRNE rl,rl,r3，LSL r2 ; 获得 高 32 位 并 与 低位 组 合 在 一 起 


图 3-55 描述 了 将 未 对 齐 的 小 端 格式 字数 据 加 载 到 存储 器 中 字 节 地 址 为 5 的 情形 。 左 图 显 
示 了 字 对 齐 的 存储 器 ， 而 右 图 显示 了 字 节 对 齐 的 存储 器 。 每 一 个 字 节 地 址 的 最 低 两 位 都 用 粗 
体 表示 ， 以 反映 上 述 代 码 的 作用 ， 它 们 使 用 这 些 位 来 提取 字 对 齐 模式 。 代 码 首先 清除 字 节 偏 
移 量 (将 地 址 的 低 两 位 清 零 )， 然 后 取出 该 地 址 的 字数 据 以 及 下 一 个 按 字 对 齐 地 址 的 字数 据 。 
这 保证 了 从 从 存储 器 中 提取 字数 据 。 下 一 步 就 是 使 用 偏 移 量 对 这 两 个 字数 据 进行 移 位 ， 以 得 
到 正确 位 置 处 的 所 需 字 节 。 最 后 ， 通 过 逻辑 与 操作 把 两 个 字 组 合 在 一 起 。 请 注意 最 后 3 条 指 
令 都 是 条 件 执行 的 一 一 如 果 偏 移 量 为 零 ， 则 是 地 址 是 按 字 对 齐 的 ， 无 需 做 任何 事情 。 我 们 将 
浏览 整个 代码 并 介绍 它 是 如 何 从 存储 器 读 取 字 节 的 。 图 3-56 给 出 了 代码 在 模拟 器 中 的 执行 情 
bio Fl 3-56 下 面 的 文本 框 通过 介绍 访问 16 位 数 的 操作 进一步 讨论 了 ARM 的 数据 排列 。 


; 0 初始 化 为 5 
BIC r2,r0,#3 ; x2 % (000101 AND (NOT 000011)) = 000100 
LDMIA r2, {r1,r3} ; 将 包含 该 字 的 64 位 数据 加 在 到 zl1 和 T3 中 
; rl = b7 b6 b5 b4, r3 = bB bA b9 b8 
AND r2,r0,#3 ; z2 = 01 
MOVS r2,r2,LSL #3 ; £2, = 1900 
MOVNE rl,rl,LSR r2 ; rl = 00 b7 b6 b5 (HH 8 位 之 后 ) 
RSBNE r2,r2,#32 ; r2 = 32 - 8 = 24 
ORRNE rl,rl,r3, LSL r2 ; r3 2 24 {£4 b8 00 00 00 


; r1 00 b7 b6 b5 OR b8 00 00 00 = b8 b7 b6 b5 
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按 字 对 齐 的 存储 器 视图 字 节 存储 单元 


00000000 
00 | 字 节 031% 节 02! 字 T 00000001 
00000010 
00000011 
00000100 
00000101 
00000110 
00000111 
00001000 
00001001 
00001010 
00001011 
00001100 
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图 3-56 (EH ARM 模拟 器 演示 未 对 齐 读 操作 


ARM 半 字 数据 传输 

就 像 第 一 代 RISC 处 理 器 一 hea Rm, ARM ih HRA FRA 
RRR, MRAR RAAKA HOF TH, PACH ISA 被 修改 为 支持 16 位 和 
8 位 数据 传输 。 向 已 有 的 指令 集中 添加 新 的 指令 给 设计 者 提出 了 挑战 。 实 际 上 ，ARM X 
献 相 当 坦 率 ， 它 指出 “…… 半 字数 据 传输 …… 有 点 硬 塞 进 指令 空间 ……”。 下 图 显示 了 
| 半 字 /有 符号 字 节 指令 的 结构 ， 它 类 似 于 其 他 存储 器 访问 指令 。 从 8 位 立即 数 被 分 成 两 
| 组 一 一 操作 码 的 第 0 一 3 位 以 及 第 8 ~ 11 位 ,就 可 以 看 到 指令 格式 是 多 么 的 凌乱 。 这 些 
| KARAI ARM 已 有 的 数据 指 今 的 全 部 功能 ， 因 为 主 即 歼 信 移 量 被 限制 为 8 位 ， 而 
| 且 也 不 能 使 用 移 位 的 寄存 器 偏 移 量 。 


| load 和 store 操作 采用 不 同 的 方法 处 理 。 当 将 16 位 或 8 位 数 加 载 到 寄存 器 中 时 ， 要 

| 么 对 它 进 行 零 扩展 要 么 对 它 进行 符号 扩展 。 因 为 存储 器 是 按 字 节 编 址 的 ， 数 据 被 保存 在 

| 1、2 或 4 字 节 宽 的 单元 中 ， 所 以 零 扩 展 或 者 符号 扩展 是 毫 无 意义 的 。 有 符号 字 节 寄存 器 
load 指令 把 一 个 字 节 加 载 到 寄存 器 ， 并 把 8 位 数 符号 扩展 成 32 位 数 。 半 字 版 本 允许 加 
R 16 位 数 到 寄存 器 ， 然 后 进行 零 扩 展 或 者 符号 扩展 。 这 些 指 令 是 现 有 LDR 和 STR 指令 
的 修改 版 本 。 它 们 的 汇编 语言 形式 如 下 
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Sl 28272623 24 2.22 27 2019 1645 IZH * 87 65 43 0 
条 件 码 |0 0 0] | Ea 


前 /后 索引 
向 上 /向 下 
| 写 回 

j Load/store 
基 址 寄存 器 





源 / 目的 寄存 器 
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LDRH 加 载 半 字 (1642) 到 寄存 器 
LDRSH 加 载 有 符号 半 字 (16 位 ) 到 寄存 器 
| EDRSB 加 载 有 符号 字 节 到 寄存 器 A 
STRH 存储 半 字 到 存储 器 
STRB 存储 字 节 到 存储 器 
像 其 他 ARM 指 令 一 样 ， 这 些 指令 也 可 以 条 件 执 行 。 例 如， 指令 LDREQSH 
ro, [r1] ,#2 的 含义 是 : 如 果 包 位 为 1 则 把 rl 所 指 的 有 符号 半 字 数据 加 载 到 寄存 器 r0， 
且 将 该 操作 数 符号 扩展 成 32 位 ， 然 后 rl 递增 2。ARM 文献 介绍 了 如 何 使 用 有 符号 16 
| 位 数 load 指令 把 16 位 有 符号 数组 转换 成 32 位 有 符号 数组 。 


ADR r0, Source16 ; 加 载 源 数 组 的 首 地 址 
ADR r1,Dest32 ; 加 载 目 的 数组 的 首 地 址 
ADR r2,SourceEnd ; RRA RBH +2 
Loop LDRSH r3,[r0], #2 ; REPEAT 读 取 有 符号 16 位 半 字 
STR r3, [r1], #4 ; 存储 到 目的 数组 
CMP r0,r2 ; UNTIL 传输 完毕 
BLT Loop ; 


这 段 代码 毫 无 惊喜 可 言 。 它 没有 使 用 循环 计数 器 ， 而 是 当 最 后 的 地 址 等 于 源 数 组 最 
后 一 个 元 素 的 地 址 +2 时 停止 。 如 果 源 数组 位 于 1000,。 处 ， 有 256 个 半 字 ， 则 源 数组 占 
用 512 个 字 节 且 未 尾 地 址 为 1200is， 所 以 终止 值 为 1202,s。 由 于 采用 后 索引 寻 址 方式 ， 
所 以 要 加 上 人 额外 的 2 个 字 节 。 


3.11.3” 块 移动 指令 


下 面 介 绍 ARM 中 最 不 像 RISC 指令 的 指令 : 用 一 条 指令 在 寄存 器 组 和 存储 器 之 间 传 送 
数据 。 下 述 ARM 代码 说 明了 怎样 从 存储 器 将 数据 加 在 到 4 个 寄存 器 。 


ADR 1r0,DataToGo ; 把 数据 区 的 地 址 加 载 到 ro 

LDR ri, [r0] ,#4 ; 把 r0 所 指 的 字数 据 加 载 到 rl1， 并 更 新 指针 
LDR r2, [r0] ,#4 ; 把 工 0 所 指 的 字数 据 加载 到 2， 并 更 新 指针 
LDR 43, [r0], #4 ; 对 寄存 器 r3 种 r5 也 同样 如 此 


LDR r5, [r0] ,#4 


有 些 CISC 处 理 顺 能 在 寄存 器 组 和 存储 器 之 间 拷 贝 块 数据 。 例 如 ，68K 使 用 指令 movem 
{D0-D7},- (a7) 把 8 个 数据 寄存 器 DO ~ D7 保存 到 存储 器 中 。 指 针 寄 存 融 AT 在 每 次 操作 前 
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自动 递减 。ARM 也 有 将 块 移动 到 存储 器 的 指令 srM 与 从 存储 器 移出 块 的 指令 mM, 它们 能 
够 在 寄存 右 组 和 存储 器 之 间 拷 贝 块 。 这 两 条 块 移动 指令 用 两 个 后 级 描述 了 如 何 访问 数据 。 

从 概念 上 来 说 ， 块 移动 很 容易 理解 ， 要 么 是 “将 这 些 寄 存 器 的 内 容 复制 到 存储 器 "， 要 
么 相反 。 而 在 实践 中 却 很 复杂 ， 因 为 ARM 提供 了 一 整套 选项 以 确定 如 何 进行 移动 (例如 寄 
存 器 是 从 高 地 址 移 到 低地 址 还 是 从 低地 址 移 到 高 地 址 ， 存 储 指针 更 新 是 在 传输 之 前 还 是 在 
传输 之 后 )。 我 们 从 把 寄存 器 rl1、r2、r3 Mrs 的 内 容 移 动 到 地 址 连续 的 存储 器 单元 开始 ， 指 
SH 

STMIA r0!,{rl-r3, r5} ”; 请 注意 语法 ， 需 要 进行 移动 的 寄存 器 放 在 大 括号 里 

该 指令 将 寄存 器 rl ~ r3 以 及 r5 复制 到 地 址 连续 的 存储 单元 中 ， 它 用 r0 作为 带 自动 索 
引 的 指针 (由 后 缀 ! 指明 )。 后 缀 1A 表明 索引 寄存 器 r0 将 在 每 一 次 数据 传输 后 递增 ， 从 而 使 
WIEK, A ARM 的 块 模式 指令 有 几 种 不 同形 式 , 但 ARM 总 是 把 编号 最 低 的 寄存 器 存 
储 到 地 址 最 低 的 位 置 ， 接 着 就 是 把 编号 次 低 的 寄存 器 保存 到 次 低地 址 处 ， 等 等 (例如 在 上 述 
例子 里 ， 先 保存 rl ， 然 后 是 rz2 、r3 ， 最 后 是 r5 )。 图 3-57 给 出 了 ARM 模拟 器 在 加 载 并 且 执 
行 这 些 指令 之 后 的 输出 结果 。 

如 果 查 看 图 3-57， 就 会 发 现 它 建立 了 一 个 环境 一 一 要 保存 的 虚拟 的 寄存 器 数据 、 指 向 
目的 寄存 器 的 指针 以 及 指针 寄存 器 的 初始 值 ， 对 sma 指令 进行 了 测试 。 在 程序 之 后 我 们 
用 space 伪 指 令 预 留 20 字 节 的 存储 空间 以 保存 数据 。 存 储 器 窗口 中 有 两 个 数据 块 : 一 个 在 
0x38 处 ， 另 一 个 在 0x4C 处 。 位 于 0x4C 的 第 二 个 数据 块 是 常量 池 ， 由 LDR r1,=0x11111111 
等 指令 建立 。 这 些 数据 在 程序 运行 前 加 载 。 而 位 于 0x38 的 数据 块 包括 保存 在 存储 器 中 的 4 
个 寄存 器 的 数据 。 查 看 寄存 器 列表 中 的 r0， 将 看 到 0x48， 它 是 存储 器 中 下 一 个 空闲 地 址 ， 
可 以 确认 r0 会 在 每 一 次 访 存 操作 后 递增 。 





rO A0x48, CRAM 
据 存储 后 的 什 





寄存 器 预 加 载 的 孝 据 





在 扫 行 前 寄存 器 加 载 到 全 
常量 池 


图 3-57 使 用 模拟 器 演示 STMIR 指令 


下 一 个 例子 使 用 多 寄存 器 加 载 指 令 实 现 了 一 个 存储 区 与 多 个 寄存 器 之 间 进 行 块 传输 。 还 
请 注意 Lor, str 指令 对 和 Loma, smia 指令 对 在 汇编 语法 上 的 差别 。 单 个 加 载 /存储 指令 
将 寄存 器 放 在 前 面 ， 然 后 是 有 效 地 址 ， 而 多 寄存 器 加 载 /存储 指令 则 将 指针 寄存 器 放 在 前 
面 ， 然 后 是 需要 保存 的 寄存 器 列表 。 而 且 ， 多 寄存 器 加 载 /存储 没有 把 指针 寄存 器 放 在 大 括 
号 中 。 
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LDMIA r0,{xr3,r4,r5,r9} ; 把 r0 所 指 的 数 加 载 到 r3 
; 把 上 0+4 所 指 的 数 加 载 到 r4 
; 把 r0+8 所 指 的 数 加 载 到 r5 
; 把 r0+12 所 指 的 数 加 载 到 r9 
请 注意 它 并 不 是 一 个 栈 操作 ， 因 为 数据 传输 后 指针 寄存 器 r0 并 没有 被 更 新 。 当 使 用 
栈 指针 移动 数据 块 时 ， 必 须 通 过 为 基 址 寄存 器 〈 即 栈 指 针 ) 添加 后 级 ! 来 更 新 栈 指针 。 如 
果 写 成 srMIa ri31,{r3,r4,r5,r9}， 则 系统 栈 指针 r13 的 值 会 在 每 一 次 移动 寄存 器 时 加 4。 
图 3-58 给 出 了 ARM 处 理 需 块 移动 指令 的 编码 。 


31 28 272625 24 23 22 21 20 19 1615 0 


EE us wt SAK 















基 址 寄存 器 

og atid to la 
0 = 存储 到 存储 器 

1s 和 和 
指针 更 新 ( 写 回 ) 
人 = 不 写 回 调整 的 指针 
lal 
恢复 PS 


0= 不 加 载 PSR 或 强制 为 用 户 模式 


1 = 加 载 PSR 或 强制 为 用 户 模 式 
指针 方向 (向 上 /向 下 ) 
递减 指针 


递增 指针 
指针 调整 m RED 
0= 后 操作 : 使 用 指针 然 
1 = 前 操作 : HGA 


图 3-58 ARM 块 移动 指令 编码 


© Cengage Learning 2014 


1. 块 移动 与 栈 操作 

如 前 所 述 , ARM 块 移动 指令 形式 多 样 ， 因 为 它 支 持 4 种 可 能 的 栈 模式 ， 如 图 3-45 所 示 。 
这 些 模式 之 间 的 区 别 是 栈 生 长 的 方向 (向 上 或 上 升 以 及 向 下 或 下 降 ) 以 及 栈 指针 是 指向 栈 项 
的 数据 还 是 指向 栈 顶 的 下 一 个 空位 置 。 带 硬件 栈 支 持 的 CISC 处 理 器 一 般 仅 提供 一 种 固定 的 
栈 模式 。ARM 文献 用 4 个 术语 描述 栈 : 


e FD 满 下 降 图 3-59a 
e FA 满 上 升 图 3-59b 
e ED 空 下 降 3-59c 
e EA Z EFR 图 3-59d 


请 注意 ARM 分 别 用 术语 上 升 和 下 降 描述 栈 朝 高 地 址 或 低地 址 生长 ， 而 不 是 指 在 页 面向 
上 或 向 下 生长 ， 这 十 分 重要 。 如 果 栈 指针 指向 栈 顶 元 素 ， 则 这 个 栈 被 称 为 满 的 。 如 果 栈 指针 
指向 栈 顶 之 上 的 一 个 空 元 素 ， 则 这 个 栈 被 称 为 空 的 。 

K 3-5 把 ARM 块 模式 传输 后 缀 与 图 3-59 的 每 一 种 情况 关联 到 一 起 。 通 常 假 设 低地 址 为 
页 的 顶端 。 例 如 ， 栈 类 型 1 朝 低地 址 方向 向 上 生长 ， 栈 指针 指向 栈 顶 项 。 

ARM 有 两 种 方法 描述 栈 ， 乍 一 看 这 有 点 令 人 混淆 。 栈 操作 可 以 描述 为 它 做 什么 或 者 它 
如 何 去 做 。 例 如 ， 如 果 决 定 实现 一 个 最 常用 的 栈 ， 指 向 栈 顶 元 素 且 向 低地 址 方向 生长 ， 它 
就 是 满 下 降 栈 ， 即 FD (本 书 采用 这 种 类 型 )。 因 此 ， 可 以 在 r0 和 Frl 人 栈 时 使 用 指令 srwFp 
sp!,{ro,r1}, MÆ rO 和 rl 出 栈 时 使 用 指令 zpMFp sp!, {ro0,r1}。 满 下 降 栈 通 过 先 将 指针 递 
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减 ， 然 后 把 数据 存储 到 该 地 址 (入 栈 ) 或 者 先 读 取 栈 顶 数据 ， 然 后 指针 递增 (出 栈 ) 来 实现 。 
因此 可 以 用 指令 sTMDB sp!, {r0,r1} 或 LDMIA sp!, {ro,r1} 来 代替 sTMFD/LDMFD。 


表 3-5 ” 栈 类 型 与 ARM 块 移动 指令 后 组 





ft DA OF 


b) 满 上 升 栈 





a) 满 下 降 栈 









栈 朝 高 地 址 方向 生长 
栈 指针 指向 栈 顶 


栈 朝 低 地 址 方向 生长 
栈 指针 指向 栈 顶 












d) 空 上 升 栈 





栈 朝 高 地 址 方向 生长 
栈 指针 指向 栈 顶 相 邻 的 空位 置 


栈 朝 低 地 址 方向 生长 
栈 指针 指向 栈 顶 相 邻 的 空位 置 
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图 3-59 ARM 的 4 种 栈 模式 


2. 块 移动 指令 的 应 用 
ARM 块 移 动 指令 最 重要 的 应 用 之 一 是 在 进入 子 程序 时 保存 寄存 器 和 从 子 程序 返回 时 恢 
复 寄 存 器 。 请 考虑 下 面 的 ARM 代码 : 


ia 





BL test ; 调用 子 程 序 test， 将 返回 地 址 保存 到 r14 
STMFD r12!,{r0-r4, r10} ; PEẸ test, RF OLEPER 
body of code 代码 主体 
LDMED 413! r {r0-r4, ri) 7 子 程 序 完 成 ， 恢 复 寄 存 器 
MOV pe,rl4 ; 将 r14 中 的 返回 地 址 复制 到 PC 


可 以 减少 这 段 代码 的 体积 ， 因 为 指令 mov pc,r14 是 多 余 的 。 为 什么 呢 ? 因为 既然 使 用 
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了 块 移 动 指令 从 栈 中 恢复 寄存 器 ， 自 然 也 可 以 包括 程序 计数 器 PC。 代 码 可 改 为 : 


test STMFD r13!,{r0-r4,r10, r14} ; 保存 工作 雪 存 器 ， 并 将 返回 地 址 保存 到 ris 中 


LDMFD r13!,{r0-r4,r10,r15} ; 恢复 工作 寄存 器 ， 把 14 送 入 PC 中 
在 子 程序 的 开头 ， 首 先 将 包含 返回 地 址 的 链接 寄存 器 r14 入 栈 ， 然 后 在 子 程序 末尾 将 已 
保存 的 寄存 器 出 栈 ， 包 括 返回 地 址 的 值 ， 它 被 送 到 PC 来 完成 返回 。 
块 移动 提供 了 一 个 在 存储 区 之 间 复 制 数据 的 便捷 方法 。 在 下 一 个 例子 里 ， 我 们 将 256 个 
字数 据 从 table 1 复制 到 table 2。 块 移动 指令 允许 一 次 移动 8 个 寄存 器 ， 如 下 述 代 码 所 示 。 





ADR r0,table1 ; Ir0 指向 源 表格 (请 注意 伪 操 作 ADR) 
ADR r1,table2 ; Ir1 指向 目的 表格 
MOV r2,#32 ; 要 移动 32 ( 块 ) X 8 = 256 6 字 的 数据 
Loop LDRFD rô!,{r3-r1i0} ; mea if 8 仆 字 数据 加 载 到 寄 疗 器 53 一 r10 
STRFD ri!,{r3-r1i0} ; FENE SENAR 
SUBS r2,r2,#1 ; AREA 
BNE Loop ; UNTIL 32 个 块 移动 完毕 - 


3.12 整合 一 一 将 所 有 内 容 放 在 一 起 


下 面 提供 一 个 用 汇编 语言 编写 的 ARM 程序 的 扩展 实例 。 在 开发 汇编 语言 程序 时 ， 为 了 
测试 目的 ， 经 常 需要 简单 的 方法 从 程序 输入 数据 或 者 输出 数据 。 如 果 在 诸如 PC 等 开发 环境 
中 运行 代码 ， 这 句 话 就 更 加 正确 了 。ARM 汇编 器 借助 于 swt( 软 中 断 ) 指令 解决 了 这 一 问题 。 
因为 swI 已 经 改名 为 svc， 因 此 从 现在 开始 用 sve. 

后 面 的 章节 会 详细 讲解 中 断 ， 这 里 只 简单 地 介绍 一 下 ， 以 帮助 大 家 理解 用 来 调用 操作 
系统 功能 的 ARM 软 中 断 指令 。 执 行 sve 会 把 返回 地 址 保存 到 r14_sve H, JE cpsR 保存 到 
sPsR_svc， 然 后 进入 管理 模式 (supervisor mode), SIL Pri, Foe Hi] kee Be M a He 
HE 08,s 处 。 中 断 处 理 程序 必须 确保 能 在 异常 处 理 未 尾 正 确 恢 复 程序 计数 器 和 条 件 码 。 寄 存 器 
rl3 和 r14 是 分 组 的 ， 所 以 当 蜡 常 发 生 时 会 切换 到 另外 一 组 物理 寄存 器 13 和 r14。ARM X 
献 把 svc 模式 下 的 rl4 名 为 T14_svc。 同 样 ， 处 理 器 状态 寄存 器 被 保存 到 SPSR_svc Fo 

sve 指令 使 用 一 个 24 位 的 立即 操作 数 。 指 令 本 身 不 使 用 该 操作 数 ， 蜡 常 处 理 程序 会 访 
问 它 以 决定 软 中 断 的 类 型 。 也 就 是 说 ， 当 遇 到 软 中 断 指令 时 ，svc 处 理 代码 会 读 取 sve 的 二 
进 制 模式 ， 它 会 造成 异常 以 决定 软 中 断 的 类 型 。 

ARM 汇编 器 (与 ARM 开发 系统 相关 ) 定义 了 一 些 可 由 程序 员 使 用 以 开发 软件 的 软 中 
断 。 例 如 ， 编 号 0 用 于 在 控制 台 上 显示 寄存 器 r0 中 的 ASCII 编码 字符 。 程 序 员 所 要 做 的 就 
是 编写 下 面 的 代码 。 


SVC 0 ; 打印 工 0 中 的 字符 

实际 上 ， 也 可 以 编写 更 清晰 的 代码 : 

Writec EQU 0 ;， 编 号 的 功能 为 “在 控制 台 打印 字符 ” 
svc Writec ; 调用 操作 系统 打印 ro 中 的 字符 


应 该 强调 的 是 这 些 sve 功能 是 特定 开发 系统 的 特性 ， 而 不 是 ARM 指令 集体 系 结构 的 一 
部 分 。 这 些 功 能 不 能 用 于 Keil 开发 系统 ， 该 开发 系统 主要 用 于 骨 入 式 系统 ( 即 没 有 PC 类 型 
的 键盘 和 显示 器 )。 
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四 功能 计算 器 程序 

假设 我 们 希望 编写 一 个 框架 程序 ， 用 于 实现 一 个 简单 的 四 功能 计算 器 。 用 户 输 入 形 如 
“123 + 4567 =” 的 表达 式 ， 然 后 程序 打印 出 结果 。 请 注意 假设 所 有 的 数 均 为 正 ， 所 有 输入 和 
结果 都 在 ARM 32 位 数 的 范围 内 。 

既然 程序 必须 处 理 可 变 的 数字 ， 可 以 一 直 读 入 十 进 制 数 字 ， 直 到 遇 到 操作 符 +、-、*、/ 
或 = 时 停止 累加 运算 。 用 于 解决 该 问题 的 第 一 级 伪 码 如 下 


读 取 第 一 个 数 和 终止 符 
把 第 一 个 数 作为 操作 数 1， 把 终止 符 作 为 操作 符 
读 取 第 二 个 数 和 终止 符 
Switch (操作 符 ) 

{ Case of +: 做 如 法 
Case of -: 做 减法 
Case of *: 做 乘法 
Case of /: 做 除法 

输出 结果 

{ While (有 效 数 ) 

除 以 10 
endWhile } 
打印 栈 里 的 数字 


该 代码 唯一 复杂 的 部 分 是 它 的 输出 机 制 。 如 果 结 果 为 1234， 除 以 10 余数 为 4。 把 余数 
进 栈 。 再 除 以 10 余数 为 3， 也 进 栈 。 最 终 ， 栈 中 包括 1、2、3 和 4。 现在 就 可 以 按照 正确 的 
次 序 打印 数字 1、2、3、4 了 。 下 面 就 是 利用 上 述 算法 开发 的 源 代码 。 


AREA ARMtest, CODE, READONLY 


WriteC EQU &0 ; 将 字符 写 到 控制 台 的 操作 系统 代码 
ReadC EQU &4 ; 从 控制 台 读 字符 的 操作 系统 代码 
Exit EQU $11 ; 退出 的 操作 系统 代码 

ENTRY 
calc MOV  r13,#0xA000 ， ;初始 化 栈 指 针 

BL NewLn 

BL input ; 读 第 一 个 数 和 终止 符 

MOV r2,r0 ; 保存 终止 符 ( 即 操作 符 ) 

MOV r3,r1 ; 保存 第 一 个 数 

BL NewLn 

BL input ; 读 第 二 个 数 和 终止 符 

MOV r4,r0 F- 保存 终止 符 

BL NewLn 

BL math ; 进行 计算 

CMP r4,#'h’ 

BLEQ outHex 

BLNE outDec ; 显示 数字 

BL NewLn 

BL getCh 

CMP r0,#’y’ 

BL NewLn 

BEQ calc 

svc Exit ; 结束 
input ; 读数 字 串 ， 累 加 和 在 rl1 中 

; 将 非法 数字 终止 符 保存 在 r0 中 ,返回 
MOV r0,#0 ; 将 输入 寄存 器 清 0 


MOV r1.#0 ; 将 累加 和 清 0 
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next STR 


getCh svc 


putCh svc 


math CMP 
ADDEO 
CMP 
SUBEO 
CMP 
MOVEQ 
MULEQ 
MOV 


outHex 
STMFD 
MOV 
outNxt MOV 


LDR 
subs 
bne 
LDMFD 


outDec 
STMFD 
MOV 
MOV 
outNxt MOV 


outNx1l AND 


BNE 
outEx LDMFD 


r14, [sp,#-4] ! 
getCh 

r14, [sp], #4 
r0,#’0' 
PC , 工 14 
r0,#'9' 
pe,rl4 
r0,r0,#0x30 
r4,r1 
r5,#10 
¥1,74,25 

xh ed 2300 
next 


ReadC 
pe,rl4 


Writec 
pe,rl4 


r2,#'+' 
gL, £1, 23 
£2, Lali 
£1, 23, £1 
r2,#'*! 
r4,r1 
r1,r4,r3 
pe,rl4 


r13!,{r0,r1,r8,r14} 
r8,#8 

r1,r1,ROR #28 
r0,r1,#0xF 
r0,r0,#0x30 
r0,#0x39 

r0,r0,#7 

r14, [sp,#-4]! 
putCh 

r14, [sp], #4 
r8,r8,#1 

outNxt 
r13!,{x0,r1,r8,pc} 


r13!,{r0,r1,r2,r8,r14} 
r8,#0 


r4,#0 

r8,r8, LSL #4 
r4,r4,#1 
div10 
rg,r8,xr2 
r1,#0 

outNxt 
r0,r8,#0xF 


r0,r0,#0x30 
r8,r8,LSR #4 

putCh 

r4,r4,#1 

outNx1 
r13!,{r0,r1,r2,r8,pc} 


; 返回 


; 打印 
; 恢复 链接 寄存 器 


; 将 链接 和 存 器 进 栈 
; 将 字符 读 入 0 


测试 数 是 否 在 0 一 9 之 间 
AS-F 0 退出 
是 9 以 上 的 数字 ? 


; 是 ， 则 退出 


否则 把 ASCII 码 字符 转换 为 数值 
需要 满足 MUL 指令 的 要 求 


; MUL 不 能 使 用 立即 数 


之 前 的 和 乘 以 10 
然后 加 上 新 的 数字 


; 继续 


字符 输入 


打印 字符 


; 返回 


检查 操作 符 


修正 MUL 


用 十 六 进 制 阁 式 打印 ri 中 的 结果 


得 到 最 高 字 节 的 低 半 字 节 
PEFR vo 打印 
把 十 六 进 制 转换 成 ASCII 


将 链接 寄存 器 保存 在 栈 里 


用 十 进 制 格式 打印 ri 的 结果 
保存 工作 寄存 器 


数字 的 个 数 
对 数字 计数 


; 插入 余数 (最 低位 数字 ) 


如 果 商 为 零 则 完成 
否则 处 理 下 一 位 数字 


计数 器 减 1 
重复 直到 打印 完毕 


; 恢复 寄存 器 ， 然 后 返回 


PIF KABAHSAR 163 








divio ; rife 10 
; 返回 的 商 在 rl1， 余数 在 v2 

SUB r2,r1, #10 
SUB rl,rl,rl, LSR #2 
ADD ri, ,rl,rl, LSR #4 
ADD ri, EL rili, LSR #8 
ADD r1,ri,r1l, LER #16 
MOV £1, £1, LSR #3 
ADD r3.,,r1,r1, ASL #2 
SUB r2, r2,r3, ASL #1 
ADDPL, ri1,rl,# 
ADD) r2,7r2, #10 
MOV pe,ri4 

NewLn ; 新 行 
STM: r13!,{r0,r14} ; 栈 寄存 器 
MOV r0,#0x0D ; 回 车 
svc Writec ; 打印 字符 
MOV r0,#0x0A ; 换行 
svc Writec ; 打印 字符 
LMD ri3!,{r0,pc} ; 恢复 寄存 器 ， 然 后 返回 
END 

A 
章 首先 讲述 了 基本 的 存储 程序 概念 ， 展 示 了 执行 机 器 指令 时 信息 的 流动 过 程 。 我 们 从 
一 个 简单 的 虚拟 计算 机 开始 ， 该 计算 机 是 ARM 的 简化 版 本 ， 被 本 书 用 作 教学 计算 机 。 然 后 


对 基本 计算 机 进行 了 扩展 ， 曾 述 了 立即 操作 数 和 分 支 指令 是 如 何 处 理 的 。 第 6 章 会 介绍 如 何 
在 硬件 级 实现 这 样 的 计算 机 。 

本 章 大 部 分 内 容 都 关注 ARM 的 体系 结构 。ARM 是 一 种 很 容易 理解 的 计算 机 ， 非 常 适 
合用 来 介绍 指令 集 设计 中 的 许多 有 趣 特点 。ARM 集成 了 常规 处 理 器 的 大 部 分 算术 和 人 逻辑 操 
fe, 但 也 包括 一 些 天 才 般 的 特点 ， 比 如 操作 数 的 移 位 和 条 件 执 行 。 与 其 他 经 典 RISC Ab FG 
不 同 ，ARM 处 理 占 使 用 块 移动 指令 实现 了 一 个 非常 复杂 的 栈 结构 。 

本 章 花 费 了 一 些 时 间 来 介绍 ARM 汇编 语言 。 尽 管 只 是 列 出 了 一 些 ARM 指令 并 定义 了 
它 的 寻 址 方式 ， 但 还 是 说明 了 一 些 指 令 在 实际 中 如 何 使 用 ， 因 为 它们 的 使 用 方法 往往 是 不 明 
显 的 。 


习题 

3.1 为 什么 PC 程序 计数 器 是 指针 而 不 是 计数 器 ? 

3.2 解释 下 述 CPU 寄存 器 的 功能 : IR, PC, MAR, MBR- 

3.3 经 邮 处 理 器 标志 有 CC、N、V 和 Z。 条件 分 支 可 以 根据 这 些 标志 是 true 还 是 false 来 执行 (为 0 或 
不 为 0 时 转移 )。 分 支 也 可 以 根据 这 些 标志 的 组 合 (大 于 或 等 于 0 时 转移 ) 来 执行 。 请 列 出 与 标志 
有 关 的 其 他 分 支 条 件 。 

3.4 对 下 面 的 6 位 操作 , 计算 C、Z、V 和 NN 等 标志 的 值 。 





001011 111111 000000 

a. +001101 b. +001101 è -111411 

101101 000000 111110 

d. +011011 e. —000001 f. +111111 
3.5 ARM 的 寄存 带 r13 Mrl4 是 重合 (分 组 或 多 窗口 ) 的 ， 对 于 每 一 种 异常 模式 都 有 自己 独立 的 物理 


寄存 器 对 。 请 问 寄存 器 重合 是 什么 意思 ? 请 解释 ARM 设计 者 为 什么 采用 这 种 方法 ? 
3.6 ARM 文献 经 常用 BNF 符号 描述 其 汇编 语言 指令 的 语法 。 假 设 用 BNF 描述 的 某 指 令 的 语法 如 下 : 


This|That{B}{s}{,P|Q} 


请 给 出 使 用 这 一 格式 的 合法 指令 的 例子 。 

3.7 ARM 把 程序 计数 器 放 人 rl15， 使 它 成 为 程序 员 可 见 的 。 据 说 ARM 宣称 这 样 做 会 暴露 ARM 的 流水 
线 。 请 问 这 是 什么 意思 ? 为 什么 ”提示 : 需要 阅读 流水 线 一 节 才 能 回答 这 个 问题 。 

3.8 为 什么 ARM 提供 实现 了 [r0] = [r2] - [r1] 操作 的 逆 减 法 指令 RsB ro0,ri,r2? 而 减法 指令 suB 
r0,r2,rl 也 可 完成 同样 的 事情 。 

3.9 与 分 离 的 地 址 和 数据 寄存 器 相 比 ， 通 用 寄存 器 有 什么 优点 和 缺点 ? 

3.10 什么 是 未 对 齐 操作 数 ? 为 什么 未 对 齐 操作 数 是 程序 设计 的 一 个 重要 问题 ? 

3.11 如 果 rl = 11110000111000101010000011111101, r2 = 0000000011111111000011110000 1111, fA 
行 指令 Bic r3,r1, r2 后 3 的 值 是 多 少 ? 

3.12 指令 MOV r0,r0,ASR #31 的 功能 是 什么 ? 

3.13 如 果 rl = 0FFFi6，r2 = 4， 则 执行 下 述 指令 后 3 的 值 是 多 少 (假设 每 一 条 指令 都 使 用 同样 的 数 
据 ) ? 
a. MVN r3,r1, LSL r2 b. MVN r3,rl, LSR r2 
cC. MOV r3,rl, LSR r2 d. Mov r3,r1, LSL r2 


3.14 如 果 rl = 00FF,s，r2 = 4， 则 执行 下 述 指令 后 r0 的 值 是 多 少 (假设 每 一 条 指令 都 使 用 同样 的 数 
H)? 
a. ADD r0,r1,r1, LSL #2 
b. ADD r0,r1,r1, LSL #4 
c. ADD r0,r1,r1, ROR #4 


3.15 a. 编写 一 个 ARM 汇编 语言 子 程序 ， 统 计 r0 中 的 32 位 字数 据 中 二 进 制 1 的 个 数 ， 将 返回 结果 保 
存在 rl 中 。 
b. 一 个 字数 据 中 含有 字 节 b4、b3 、b2 和 bl。 编写 一 个 函数 按照 bl 、b3 、b2 Fil b4 的 次 序 将 这 些 
字 节 重新 排序 ( 转 置 )。 

3.16 ARM 指令 有 个 12 位 的 立即 数 。 但 是 立即 数 的 范围 不 是 0 ~ 2""-1, ARM 使 用 8 位 的 整数 字段 和 
4 位 的 对 齐 字段 对 整数 进行 步 长 为 2 的 移 位 。 与 直接 使 用 12 位 整数 字段 相 比 ， 这 种 方式 有 何 优点 
和 缺点 ? 

3.17 写 出 一 条 或 多 条 ARM 指令 将 r0 中 第 20 ~ 25 位 清 0。r0 中 其 他 位 应 保持 不 变 。 

3.18 这 是 一 个 经 典 的 汇编 语言 编程 问题 。 请 写 出 一 段 ARM 指令 序列 ， 交 换 寄存 器 r0 和 rl 的 内 容 ， 
不 能 使 用 其 他 的 寄存 器 和 存储 单元 〔( 即 不 能 把 rl 移 到 临时 的 位 置 )。 

3.19 TEQ 与 cmp 和 cMN 等 比较 指令 有 何 区 别 ? 

3.20 a. 与 传统 CISC 的 BSR (条 件 转移 到 子 程序 ) 指令 相 比 ， 使 用 ARM 的 BL (分 支 与 加 载 ) 子 程序 调 
用 方法 有 何 优点 与 缺点 ? 
b. 写 出 能 够 实现 下 述 C 操作 的 ARM 指令 。 
int 8 = Oy 


for ( i = 0; i < 10; i++) { 
s = s + i*i;) 


3.21 a. 下 述 寻 址 方式 的 作用 是 什么 ? 
STR r0, [r2,r3,ROR #3]! 


b. 指令 LDR r0, [r5,r6,LSL r2] 的 功能 是 什么 ? 


32 
3.23 


3.25 
3.26 


3.38 


3.39 
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ARM 存储 器 访问 指令 的 编码 中 位 P、U、N、W racy Teg Al 的 含义 分 别 是 什么 ? 

下 述 指令 的 二 进 制 编码 是 什么 ? 

a. STRB r1, [r2] b. LDR r3, [r4,r5]! 

c.LDR 2x3, [74], f5 d. LDR x3, [r4,#-6]! 

你 正在 寻求 一 份 计算 机 体系 结构 设计 师 的 工作 。 面 试 时 你 告诉 面试 小 组 你 对 处 理 器 有 一 些 新 的 想 


法 。 例 如 ， 设 计 一 条 指令 将 存储 单元 中 的 某 一 位 置 1。 指 令 格 式 如 下 : 
BITSET r0,r1,[(r2),r3,r4 LSR r5, #n] 


该 指令 将 地 址 为 r0 的 存储 单元 中 的 一 位 加 上 从 某 存储 地 址 开始 的 rl 位置 为 1， 该 地 址 由 r2 所 指 
存储 单元 的 内 容 加 上 寄存 器 r3 的 内 容 加 上 寄存 器 r4 的 内 容 ， 然 后 左 移 r5 加 常量 位 给 出 。 

结果 你 没有 得 到 这 份 工作 ， 为 什么 ? 

指令 LDR r0, [r2,-r3,LSL #1) 产生 的 有 效 地 址 是 什么 ? 

某 些 计算 机 有 一 条 find-first-one 指令 ， 该 指令 找 出 一 个 字 中 第 一 个 二 进 制 1 所 在 的 位 置 。 请 写 出 
一 段 ARM 指令 序列 ， 将 r0 中 字数 据 的 第 一 个 二 进 制 1 的 位 置 放 入 rl。 从 左边 开始 计数 ， 因 此 如 
果 第 31 位 为 1， 则 返回 值 为 0。 如 果 只 有 第 0 位 为 1， 则 返回 值 为 31。 如 果 没 有 位 为 1， 则 返回 
值 应 为 32。 

将 数据 从 一 个 位 置 复制 到 另外 一 个 位 置 时 ， 符 号 扩展 有 何 含义 ? 

使 用 LDR 指令 将 数据 从 存储 器 加 载 到 寄存 器 时 ， 为 什么 符号 扩展 是 一 个 很 重要 的 问题 ? 但 是 使 用 
STR 把 寄存 器 中 的 数据 保存 到 存储 器 时 ， 则 不 那么 重要 ? 

假设 72 的 初始 值 为 00001000,s。 解释 下 述 6 条 指令 的 功能 ， 给 出 每 一 条 指令 执行 后 r2 的 值 。 

a. STR rl, [r2], #8 b. STMFD r2!,{r1, r2} 

C. STR r1, [r2, #8] d. STR r1, [r2] 

e. STR r1, [r2, #8]! f. STR Yl, [r2; r0, LSL #8] 

绝 大 多 数 RISC 处 理 器 没有 块 移动 指令 。ARM 的 EDM 和 sTM 指令 的 优点 和 缺点 是 什么 ? 

指令 STMIB r1i3!,{r0-r2,r4} 的 功能 是 什么 ? 画 一 张 图 描述 该 执行 前 和 执行 后 rl3 所 指 的 栈 的 
两 个 指令 对 一 一 LDMIA、SRMDB 和 ( LDMFD、sTMFD)， 其 功能 完全 相同 。 但 为 什么 这 两 个 指令 对 使 
用 不 同 的 或 可 选 的 助 记 符 ” 为 何 第 一 指令 对 有 不 同 的 后 级 IA 和 DB ? 为 何 第 二 对 有 相同 的 后 绥 
FD? 6 

不 使 用 ARM 乘法 指令 ， 写 出 一 条 或 多 条 指令 (使 用 ADD, sus 和 移 位 指令 ) 乘 以 下 述 整 数 。 

a. 39 b. 2025 c. 6125 

一 个 字 中 包括 字 节 b4、b3 、b2 和 bl。 编 写 一 个 函数 将 b3 中 的 各 位 取 反 且 将 b2 中 的 位 清 0， 而 
其 余 位 保持 不 变 。 

编写 合适 的 ARM 代码 ， 实 现 

if x = y call POR else call ZXY 

编写 ARM 汇编 语言 程序 扫描 由 空 字 节 0x00 结束 的 字符 串 ， 将 字符 申 从 r0 所 指 的 源 位 置 复制 到 
rl 所 指 的 目的 位 置 。 

重复 习题 3.36， 但 是 当 传送 字符 串 时 删除 子 串 “the”。 例 如 , “and the man said” 将 变 为 “and 
man said” 。 

编写 一 段 程 序 ， 将 文本 从 ro 所 指 的 位 置 复制 到 rl 所 指 的 位 置 。 复 制 后 的 版 本 必须 是 逆序 的 。 假 
设 要 复制 的 字符 串 非 空 ( 即 它 含 有 至 少 一 个 字符 ) 且 由 空 字 节 结束 。 

编写 一 段 程序 ， 把 r0 所 指 的 含有 奇数 个 字符 的 字符 串 翻转 。 假 设 要 复制 的 字符 串 非 空 (包含 至 少 
一 个 字符 ) 且 以 字符 0x0D 结束 (字符 数 包 括 终止 符 )。 不 得 使 用 额外 的 存储 器 缓冲 区 ( 即 只 能 使 
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3.40 


3.4 


— 


3.4 


N 


3.48 


3.49 
3.50 


3.51 


3.52 


用 寄存 融和 字符 串 存 储 区域 )。 

重复 习题 3.37， 但 是 当 传 送 字符 串 时 ， 反 转 以 “t” 开 头 的 所 有 单词 中 字母 的 顺序 。 例 如 , “and 
the man said” 将 变 为 “and eht man said”。 

下 面 这 段 代 码 的 功能 是 什么 ? 


EQ r0, #0 
SBMI r0,r0,#0 


下 述 助 记 符 的 含义 是 什么 (它们 有 何 功 能 ) ? 
a. LDRSH b. RSBLES 
C. CMPS d. MRS r0,CPSR 


€. MSR SPSR, r0 

下 述 指令 有 何 错误 ? 

MLA r0,r0,r1,r2 

将 数据 从 一 个 位 置 复 制 到 另外 一 个 位 置 时 ， 符 号 扩展 有 何 含义 ? 

汇编 语言 中 的 伪 操 作 是 什么 ? 

请 解释 以 下 两 个 ARM 伪 操 作 的 含义 。 它们 有 何 功 能 ? 如 何 实现 ? 

a. LDR r0, = 0x1234FEDC b. ADR r0,table 

假设 要 在 ARM 计算 机 上 依次 执行 指令 LDR r0,=0x12345678 和 STR r0,[r1]， 这 里 rl = 0x1000. 
现 假设 用 指令 LDRB r2,[r1] 在 同一 地 址 读 取 一 个 字 节 。 如 果 : (a)ARM 采用 大 端 格式 ，r2 的 值 是 
多 少 ? (b)ARM 采用 小 端 格式 ，r2 的 值 是 多 少 ? 

编写 一 段 ARM 汇编 语言 程序 ， 判 断 在 下 述 约束 下 ， 一 个 奇数 长 度 的 字符 串 是 否 是 回 文 (例如 
mom). 

a. ASCI 码 字 符 串 保存 在 存储 器 中 。 

b. 在 程序 开头 ， 寄 存 器 rl 含有 字符 串 第 一 个 字符 的 地 址 ，r2 含有 最 后 一 个 字符 的 地 址 。 当 退出 
程序 时 ， 如 果 字 符 串 不 是 回 文 ， 寄 存 器 r0 为 0; 如 果 字 符 串 是 ， 寄 存 器 r0 为 1. 

如 果 回 文 为 奇数 或 偶数 长 度 ， 如 何 处 理 前 一 个 问题 ? 

一 个 单 向 链表 (如 下 图 )，r0 指向 它 的 第 一 个 元 素 ， 元 素 的 头 部 为 指向 链表 中 下 一 个 元 素 的 32 
位 地 址 ， 元 素 的 尾部 为 可 变 长 数据 。 尾 部 长 度 可 能 是 大 于 4 字 节 的 任何 一 个 值 。 链 表 的 最 后 一 
个 元 素 指 向 空地 址 0。 请 编写 程序 在 链表 搜索 一 个 元 素 ， 它 的 尾部 以 数据 寄存 器 xl 中 的 字 开 
头 。 如 果 找 到 该 元 素 ， 则 将 路 置 为 0xFF， 且 r0 包括 该 记录 的 地 址 。 如 果 没 有 找到 ， 则 rl 为 
0xFFFFFFFF。 
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请 解释 下 述 代码 段 中 每 条 指令 的 作用 以 及 这 段 代 码 的 功能 (假设 寄存 器 r0 就 是 感 兴趣 的 寄存 器 )。 
请 注意 r0 中 的 数据 在 入 口 处 不 能 为 0。 


MOV r1,#0 

loop MOVS r0,r0,LSL #1 
ADDCC EL, x61, #1 
BCC loop 


下 述 是 一 段 用 ARM 代码 表示 的 循环 。 这 代码 是 错 的 。 为 什么 ? 


3.55 


3.57 


3.58 





MOV r0, #10 ; 循环 计数 器 一 一 循环 10 次 
Next ADD rl,r1,ro ; 把 循环 计数 器 加 入 总 和 


SUB r0,r0,#1 ; 循环 计数 器 减 1 
BEQ Next ; 继续 直到 完成 











请 考虑 下 面 的 Java 语句 。 用 ARM 汇编 语言 表示 每 一 条 语句 。 假 设 所 有 变量 都 是 一 位 布尔 值 且 供 
存在 寄存 器 中 : r0 =A、rl =B、r2 =C 以 及 13 = D。 注 : Java 操作 符 有 &、|、! 分 别 为 AND OR 
和 NOT。 操作 符 && Ail || 是 支持 短路 求 值 ( short-circuit evaluation) 的 AND 和 OR 操作 符 ( 即 只 
要 可 以 确定 表达 式 最 终 的 结果 为 true (对 ADD) 或 false (对 OR)， 求 值 过 程 便 可 终止 )。 

aA = (B & C)|(!D); 

b.A = (B && C)||(!D); 

要 交换 下 述 寄 存 器 的 值 。 请 用 块 移动 指令 来 完成 。 

移动 前 移动 后 

rl r3 

r2 r4 

r3 r5 

r4 r6 

TS 17 

r6 rl 

T7 r2 

为 什么 ARM 块 移动 指令 的 汇编 语言 结构 (格式 ) 与 一 般 ARM 汇编 器 的 规定 不 一 致 ?y 如 果 重 新 设 
计 ARM 汇编 语言 ， 如 何 表示 这 些 操作 (请 记 住 ， 改 变 汇编 语言 不 会 改变 体系 结构 一 一 它 仅 影响 
程序 员 的 效率 和 准确 度 )。 

请 编写 一 个 函数 ( 子 程序 )， 输 入 数据 位 于 寄存 器 r0 中 且 返 回 值 也 在 r0 中 。 该 函数 返回 了 =a+ bx + 
cx"，a、b、c 为 函数 的 内 置 参 数 ( 即 它们 无 需 传递 )。 子 程序 还 要 进行 截断 。 如 果 输 出 大 于 d, W 
将 输出 限制 为 a (截断 )。r0 中 的 输入 是 一 个 二 进 制 正 数 ， 范 围 为 0 ~ 0xFF。 除 了 r0， 子 程序 不 
得 修改 其 他 寄存 器 。 

寄存 器 rl15 是 程序 计数 器 。 该 寄存 器 可 用 于 特定 指令 ， 比 如 Mov (例如 ，MoV pc,rl4 )。 不 过 ， 
r15 不 能 与 大 多 数 数据 处 理 指令 一 起 使 用 。 为 什么 ? 

计算 机 存储 器 中 有 3 个 八 元 素 向 量 : 了、V, 和 人 。 向 量 的 每 一 个 元 素 为 32 位 字 。 请 编写 一 段 代 


码 计算 KV 的 所 有 元 素 ， 第 i 个 元 素 的 计算 公式 如 下 : Ve= “(VasVb,). 
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指令 集体 系 结构 一 一 广度 和 深度 





“艰难 登 顶 。” 
一 一 佚名 


“世界 在 变 ， 我 心 依旧 。” 
一 法 国 谤 语 


“不 要 重新 发 明 轮 子 ， 调 整 就 好 。” 
—Anthony J. D'Angelo 


今天 比尔 ， 盖 茨 是 一 个 非常 富有 的 人 …… 你 想 知道 这 是 为 什么 吗 ? 答案 只 有 一 个 词 : 
版 本 。” 


—Dave Barry 


“我 只 是 发 明 ， 然 后 等 人 来 需要 我 所 发 明 的 。 


——R. Buckminster Fuller 





上 一 章 介 绍 了 本 书 的 基本 主题 之 一 一 一 微 处 理 器 体系 结构 ， 并 介绍 了 其 汇编 语言 。 本 章 
将 介绍 一 些 变化 ， 还 将 更 加 深入 地 探讨 ARM 处 理 器 体系 结构 。 读 者 可 以 认为 本 章 拓宽 并 且 
加 深 了 他 们 对 指令 系统 及 其 应 用 的 理解 。 本 章 的 目的 不 是 用 一 系列 不 同 的 处 理 器 体系 结构 让 
读者 觉得 眼花 综 乱 ， 就 好 像 讲 授 不 规则 西班牙 语 动 词 的 连接 一 样 。 本 章 将 介绍 ARM 处 理 器 
和 传统 CISC 处 理 器 的 各 种 指令 系统 。 这 样 做 有 很 好 的 实践 原因 。 在 以 后 的 生活 中 ， 学 生 们 
将 接触 到 不 同类 型 的 处 理 器 : 有 人 可 能 设计 汽车 的 引擎 控制 器 ， 有 人 可 能 为 工作 站 上 的 应 用 
编写 驱动 程序 ， 等 等 。 学 生 们 有 必要 对 指令 系统 设计 时 可 能 出 现 的 变化 有 所 了 解 。 

在 这 里 介绍 体系 结构 的 一 些 特征 还 有 另外 一 个 原因 。 对 计算 而 言 ， 不 断 有 新 的 技术 涌现 
出 来 ， 而 且 一 些 已 经 失宠 的 技术 有 时 又 会 出 现在 后 面 的 处 理 器 中 。 尽 管 可 以 不 断 扩展 这 一 章 
的 内 容 ， 但 我 们 必须 现实 一 些 ， 介 绍 那些 趣味 性 和 说 明 性 均 很 强 的 机 器 指令 执行 方式 。 本 章 
将 讨论 以 下 内 容 。 

栈 一 一 栈 也 许 是 计算 机 科学 中 最 基础 最 重要 的 数据 结构 。 前 面 已 经 介绍 了 栈 并 解释 了 它 
是 怎样 管理 子 程序 返回 地 址 的 。 这 里 将 介绍 更 多 的 细节 ， 并 说 明 怎 样 用 栈 来 保存 一 个 子 程序 
的 局 部 变量 CRW) 以 及 怎样 通过 栈 与 子 程序 传递 参数 。 本 章 还 会 介绍 程序 设计 语言 (比如 
C) 是 如 何 使 用 栈 的 。 这 一 内 容 十 分 重要 ， 因 为 如 果 要 高 效 地 执行 程序 ， 现 代 计 算 机 必须 为 
高 级 语言 提供 有 效 支持 。 这 部 分 内 容 是 对 前 一 章 的 扩展 ， 将 更 加 深入 地 讨论 ARM 体系 结构 。 

异常 和 保护 模式 一 一 当 外 部 设备 请 求 关 注 或 发 生 了 特定 类 型 的 错误 (异常 ) 并 且 需 要 操 
作 系 统 干预 时 ,计算 机 总 是 会 用 某 种 方法 中 断 正常 执行 的 流 。《 计 算 机 存储 与 外 设 》 第 4 章 
将 介绍 中 断 处 理 的 硬件 细节 。 这 里 将 介绍 如 何 将 异常 处 理 的 能 力 集成 在 ARM 指令 集中 。 还 
会 介绍 管理 (supervisor) 模式 的 概念 ， 以 及 CISC 系列 处 理 器 是 怎样 实现 可 以 运行 操作 系统 








代码 的 管理 或 保护 模式 状态 的 。 

MIPS 一 一 看 看 别人 怎么 做 事情 总 是 很 有 启发 性 的 。MIPS 是 一 款 古 老 的 RISC 处 理 器 ， 
它 的 历史 大 约 与 ARM 处 理 器 同样 久远 。 我 们 将 简要 介绍 MIPS， 因 为 它 与 ARM 处 理 器 非 
常 像 ， 但 又 与 ARM 有 很 大 的 区 别 与 折 中 。 例 如 ，ARM 处 理 器 的 通用 寄存 器 较 少 ， 但 却 支 
持 条 件 执行 。 

数据 处 理 、 压 缩 和 位 字段 一 一 因为 数据 传送 是 最 常见 的 计算 机 操作 ， 我 们 将 介绍 一 些 有 
趣 的 数据 操作 实例 ， 比 如 压缩 。CISC 体系 结构 在 引入 位 字段 指令 时 达到 了 召 峰 (至 少 在 我 
看 来 是 这 样 ! ) 必须 承认 ， 我 第 一 次 见 到 指令 格式 十 分 复杂 但 又 能 够 处 理 存 储 器 中 任意 位 置 
位 串 的 位 字段 指令 时 十 分 着 迷 。 位 字段 指令 将 整个 存储 空间 视 作 一 个 连续 的 位 序列 ， 人 允许 从 
其 中 任何 一 个 位 置 截 取 一 个 1 一 32 位 的 切片 (位 字段 )， 并 对 这 些 位 进行 一 定 的 处 理 。 从 数 
据 结构 到 图 形 等 领域 ， 都 可 应 用 位 字段 。RISC 革命 使 人 们 对 位 字段 指令 的 热情 有 所 下 降 ， 
因为 看 起 来 用 机 器 指令 实现 软件 来 完成 位 字段 处 理 比 提供 硬件 支持 更 加 划算 。 

本 章 还 会 介绍 边界 检测 的 概念 ， 这 一 能 力 可 以 用 来 判断 一 个 数组 元 素 (或 其 他 值 ) 在 边 
界 之 内 还 是 之 外 。 

存储 器 间接 寻 址 一 一 我 们 已 经 介绍 了 寄存 器 间接 寻 址 ， 它 用 寄存 器 指向 存储 器 中 的 操作 
数 。 在 存储 器 间接 寻 址 模式 中 ， 操 作 数 地 址 在 某 个 存储 单元 中 。 实 际 上 ， 我 们 所 介绍 的 某 种 
ISA 支持 寄存 器 间接 寻 址 与 存储 器 间接 寻 址 的 组 合 ， 这 意味 着 寄存 器 指向 存储 器 中 的 一 个 指 
针 。 这 一 寻 址 模式 使 得 处 理 多 维 数据 结构 十 分 简单 。 

压缩 代码 一 一 ARM 处 理 器 一 个 不 常见 的 特点 是 它 能 够 在 16 位 模式 下 工作 ， 此 时 它 能 执 
行 压缩 版 本 的 指令 集 。 这 一 模式 叫 作 ARM 处 理 器 的 Thumb 状态 ， 可 用 于 降低 基于 ARM 处 
理 髓 的 退 入 式 系 统 的 成 本 。 我 们 还 将 介绍 其 他 代码 压缩 技术 。 

因为 本 章 给 出 了 指令 集体 系 结构 这 一 主题 的 若干 变化 ， 为 了 理解 后 面 的 章节 ， 没 有 必要 
去 阅读 本 章 的 所 有 材料 。 有 些 同学 也 许 希望 跳 过 本 章 一 些 内 容 。 然 而 ， 本 章 的 目的 是 说 明 体 
系 结构 的 变化 以 及 底层 体系 结构 为 高 级 语言 提供 的 一 些 支持 (例如 C 语言 的 参数 传递 )。 如 
果 同 学 们 仅 对 ISA 有 基本 了 解 ， 那 可 能 会 忽略 一 些 更 广 层面 的 情形 ， 也 可 能 很 难 理解 ISA 
带 来 的 一 些 约束 ， 比 如 ， 针 对 编译 器 作者 的 。 

历史 背景 

计算 机 体系 结构 的 发 展 总 是 受到 各 种 因素 的 影响 ， 如 : 体系 结构 和 技术 创新 ， 与 系列 处 
理 器 的 前 代 产 品 的 向 后 兼容 的 需要 ， 不 断 变化 的 用 户 需 求 ， 以 及 设计 时 尚 等 。 在 20 世纪 70 
年 代 和 80 年 代 早 期 ， 商 用 微 处 理 器 体系 结构 的 进步 源 自 Intel 和 Motorola。 到 了 20 世纪 80 
ee three tt 
的 传统 复杂 指令 集体 系 结构 。 一 些 漫 不 经 心 的 观察 人 士 认 为， 传统 的 CISC 结构 ， 比 如 Intel 
IA32 系列 ， plane 的 结束 了 ， 这 种 想法 可 以 原谅 。 


68K 寄存 器 

| 本 节 将 使 用 68K AS), CX Motorola Æ 1979 年 推出 的 一 款 经 典 CISC 体系 结构 ， 

| 后 来 由 飞 思 卡尔 半导体 公司 销售 。68K 的 通用 寄存 器 组 中 含有 16 个 32 位 的 寄存 器 。 它 

的 体系 结构 受到 DEC PDP-11 的 影响 ， 后 者 是 在 当时 占据 统治 地 位 的 小 型 机 体系 结构 。 
68K 的 8 个 通用 寄存 器 A0 一 A7 被 用 作 指 针 寄 存 器 ，8 个 数据 寄存 器 D0 僵 D7 被 

用 作 数 据 寄存 器 ， 这 种 设计 不 太 常见 。 这 两 组 寄存 器 基本 相同 ， 但 是 地 址 寄存 器 将 它们 
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的 内 容 视 作 32 位 指针 ， 而 数据 寄存 器 将 它们 的 内 容 视 作 任意 的 数据 (例如 ， 不 能 对 地 
址 寄存 器 进行 逻辑 和 移 位 操作 )。 而 且 ， 对 地 址 寄存 器 的 操作 不 能 自动 设置 条 件 代 码 标 
| 志 一 一 不 像 对 数据 寄存 器 的 操作 。 地 址 寄存 器 也 不 能 参加 位 操作 ， 就 像 地 址 被 认为 是 不 
可 见 的 一 一 样 。 


这 里 要 说 的 就 是 所 谓 的 RISC 革命 DIER T 68K 和 IA32 处 理 器 的 复杂 指令 格式 ， 丢 掉 了 
那些 使 用 频率 较 低 的 指令 和 寻 址 模式 ， 使 用 更 大 的 寄存 器 集 ， 仅 允许 两 类 指令 访问 存储 融 : 
load 和 store, RISC 计算 机 的 一 个 关键 特点 是 指令 的 重 登 (overlap) 或 流水 线 执行 。 计 算 机 
读 入 一 条 指令 后 ， 就 立即 对 其 译 码 ， 同 时 从 存储 器 中 读 取 下 一 条 指令 。 流 水 线 喜 欢 简 单 规 
整 的 指令 格式 ， 对 于 复杂 、 变 长 的 CISC 指令 格式 则 效率 不 高 。 然 而 ， 还 应 该 指出 的 是 Intel 
对 其 IA32 体系 结构 做 了 大 量 工作 ， 并 在 其 底层 CISC ISA 上 应 用 了 流水 线 技术 。Motorola 
也 将 RISC 技术 应 用 于 它 的 68K 系列 处 理 器 中 

20 世纪 80 年代， 喜欢 RISC 处 理 器 的 一 方 看 起 来 已 经 占据 了 上 风 。 然 而 , MIPS 或 
SPARC 那样 纯粹 的 RISC 计算 机 并 没有 消灭 掉 所 有 其 他 体系 结构 ， 因 为 历史 的 力量 实在 太 强 
大 了 。 人 们 已 经 对 Intel IA32 那样 的 指令 集 进 行 了 大 量 的 投入 ， 无 法 将 一 切 全 都 抛弃 重新 开 
始 ， 特 别 是 在 操作 系统 加 上 一 两 个 软件 包 的 价格 已 经 超过 了 绝 大 多 数 桌 面 PC 的 今天 。 尽 管 
苹果 公司 放弃 了 68K 系列 并 转 而 支持 PowerPC RISC， 但 由 于 IBM PC 机 及 其 克隆 产品 提供 
的 巨大 市 场 , Intel 则 继续 开发 它 的 80x86 系列 。 今 天 , IA32 体系 结构 仍然 统治 着 PC 机 市 场 ， 
苹果 则 放弃 了 它 的 PowerPC， 选 择 了 IA32 这 条 道路 。 

CISC 制造 商 一 直 在 关注 RISC 的 发 展 。 他 们 将 RISC 技术 的 最 新 特点 融入 其 CISC 设计 
中 。 例 如 ，Motorola 在 它 的 68040 和 68060 以 及 ColdFire 系列 处 理 器 中 使 用 了 流水 线 ， 并 
丢弃 了 其 68K 体系 结构 中 的 一 些 复杂 指令 。 为 了 确保 向 后 兼容 ,68060 会 检测 68020 的 代码 ， 
并 调用 操作 系统 功能 使 用 一 般 的 机 器 指令 来 解释 执行 这 些 代码 . 

Intel 则 尽 其 所 能 使 其 基于 IA32 的 Pentium 体系 结构 尽 可 能 地 像 RISC 处 理 器 。 有 些 克 
隆 了 IA32 体系 结构 的 公 nineteen GRC o alii aa 
但 他 们 是 通过 将 IA32 指令 翻译 为 芯片 内 的 本 地 RISC 码 来 执行 IA32 指令 

iy Deion, oR itt tne ante 
以 及 流 增强 技术 以 支持 开发 新 型 多 媒体 应 用 而 经 历 了 一 次 重生 。 即 使 那些 纯粹 的 RISC 处 理 
器 ， 比 如 SPARC， 也 通过 指令 集 扩展 增强 其 对 声音 和 图 像 的 处 理 能 力 。 实 际 上 ， 有些 RISC 
处 理 器 ， 比 如 PowerPC， 其 指令 集 的 复杂 度 已 经 超出 了 早期 的 复杂 指令 集 处 理 器 。 今 天 
CISC 和 RISC 处 理 器 之 间 已 经 没有 明确 意义 上 的 区 别 了 。load/store 型 处 理 器 和 存储 器 - 寄 
存 器 型 处 理 器 是 个 更 好 的 区 别 。 本 书 选 择 了 一 款 load/store 型 处 理 器 一 一 ARM 处 理 器 ， 作 为 
教学 平台 ， 因 为 其 汇编 语言 容易 学 习 而 且 其 应 用 十 分 广泛 ， 比 如 苹果 的 iPad. 

本 章 从 介绍 位 字段 数据 类 型 以 及 处 理 吕 提供 的 一 些 支持 位 字段 的 操作 开始 。 之 所 以 从 位 
字段 开始 不 只 是 简单 地 因为 它 明显 区 别 于 目前 为 止 读者 所 见 到 的 数据 元 素 ， 还 因为 它们 很 有 
趣 。 此 外 ， 尽 管 从 68020 之 后 对 位 字段 的 支持 已 经 逐渐 减退 ， 现 在 的 一 些 处 理 器 又 开始 增加 
对 位 字段 的 支持 了 。 


4.1 数据 存储 和 栈 
现在 来 讨论 计算 领域 一 个 十 分 重要 的 话题 : 栈 。 本 节 既 要 加 深 读者 对 ARM ISA 的 理解， 
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也 会 快速 浏览 一 款 CISC 处 理 咒 是 怎样 为 栈 操作 提供 支持 的 。 我 们 从 一 些 与 数据 存储 、 过 程 
和 参数 传递 有 关 的 背景 问题 开始 。 高 级 语言 程序 员 用 变量 代表 变量 或 抽象 数据 单元 的 数据 元 
素 。 这 些 数据 单元 是 抽象 的 ， 因 为 它 可 能 保存 程序 员 定 义 的 任意 类 型 的 数据 元 素 (例如 ， 一 
个 字 节 、 一 个 数组 或 一 个 记录 )。 对 程序 员 来 说 ,抽象 数据 单元 具有 一 个 真实 存储 单元 的 全 
部 属性 : 可 以 从 中 读 也 可 以 向 其 中 写 ( 即 可 以 为 它 分 配 数 据 )。 程 序 员 可 以 给 一 个 变量 命名 。 
将 变量 名 与 其 存储 位 置 关联 在 一 起 的 过 程 被 称 作 绑 定 ( 绑 定 的 含义 比 简单 地 将 一 个 名 字 与 一 
个 变量 连接 在 一 起 要 多 得 多 )。 

除了 名 字 以 外 ， 变 量 还 有 一 个 与 它 相 关 的 作用 域 。 变 量 的 作用 域 定义 了 它 在 程序 内 可 见 
或 可 访问 的 范围 。 例 如 ， 一 个 在 某 过 程 内 声明 的 变量 可 能 在 该 过 程 内 是 可 见 的 ， 而 在 该 过 程 
外 是 不 可 见 的 。 即 该 变量 可 在 该 过 程 内 访问 ， 而 任何 在 该 过 程 外 的 访问 企图 都 会 产生 错误 。 
图 4-1 描述 了 变量 在 一 个 块 结构 的 高 级 语言 代码 中 的 作用 域 。 它 允许 定义 在 当前 或 更 低层 次 
的 过 程 (或 模块 ) 中 可 见 的 变量 。 块 结构 语言 有 Algol 60 (编程 语言 的 老 祖 宗 )、Pascal (20 
世纪 80 年 代 一 种 流行 的 教学 语言 )、C、Ada (一 种 曾 被 美国 国防 部 用 于 安全 依 关 应 用 ， 现 在 
被 用 于 空中 交通 控制 、 铁 路 运输 和 银行 等 应 用 的 编程 语言 ) 以 及 Java。 


变量 X,Y 和 Z 可 
被 更 低层 的 模块 访问 
变量 Z 在 这 个 模块 里 被 重新 
定义 。 调 用 者 程序 中 的 变量 X 
和 了 在 这 个 模块 里 可 以 被 访问 
变量 Y 和 Z 在 这 个 模块 
里 被 重新 定义 。 全 局 变量 

在 这 个 模块 里 可 以 被 访问 
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图 4-1 作用 域 的 概念 


每 个 变量 都 有 生命 期 。 为 变量 分 配 名 字 并 为 它们 保留 存储 空间 的 即 为 可 声明 变量 。 从 汇 
编 语 言 程序 员 的 视角 来 看 ， 变 量 的 存在 始 于 它们 被 载 和 存储 器 ， 止 于 程序 运行 结束 。 然 而 ， 
在 许多 高 级 语言 中 ， 变 量 在 一 段 特 定 的 时 间 内 被 绑 定 到 一 块 存储 区 上 。 一 旦 超出 了 变量 的 生 
命 期 ， 这 块 存储 区 就 会 被 释放 并 且 可 能 会 与 另 一 个 变量 绑 定 在 一 起 。 后 面 将 会 介绍 为 过 程 中 
的 变量 分 配 临时 存储 空间 的 方法 。 

在 运行 时 为 变量 4 这 是 Java 等 语言 的 一 个 重要 特征 。， 
有 些 语言 ， mee 且 所 有 绑 定 都 在 编译 时 进行 。 在 编 
译 程序 时 为 变量 分 配 存储 值 。 当 将 程序 从 高 级 语言 转换 为 机 器 代码 时 ， 每 个 变量 都 被 分 配 了 
一 个 存储 位 置 ， 并 且 每 个 变量 都 将 保持 这 个 存储 位 置 ， 直 至 程序 终止 。 

静态 分 配 的 一 个 必然 结果 是 它 不 允许 递归 。 如 果 一 个 过 程 可 以 调用 自身 ， 则 它 是 递归 
的 。 递 归 通 常 为 解决 问题 提供 了 一 种 优雅 的 手段 ; 例如 ， 下 面 的 C 代码 段 计 算 N 的 阶乘 ， 
这 里 NM! = Nx (N-1)!。 递归 要 求 动态 存储 ， 因 为 每 次 调用 一 个 过 程 时 都 必须 为 它 的 局 部 变量 
创建 一 个 新 的 拷贝 。 


int Factorial (int n) 


{ 








if(n == 1) 
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return 1; 
else 
return n * Factorial (n-1); 


} 


Java 等 高 级 语言 采用 栈 来 保存 变量 ， 因 为 它们 先 被 创建 ， 然 后 放 。 数 据 结构 可 以 
动态 分 配 ， 也 可 以 静态 分 配 。LISP 之 类 的 可 以 在 运行 时 创建 动态 数据 结构 ， 其 大 小 可 以 随 
着 程序 的 运行 而 改变 。 

这 些 与 计算 机 体系 结构 有 什么 关系 呢 ? 如 果 存 储 空间 的 分 配 在 运行 时 于 程序 执行 期 间 完 
成 ， 变 量 地 址 显然 是 动态 的 。 相 应 地 ， 这 意味 着 数据 元 素 在 存储 器 中 的 位 置 会 在 程序 运行 时 
改变 。 因 此 ， 一 款 微 处 理 器 支持 的 寻 址 方式 在 处 理 这 种 动态 地 址 时 扮演 了 非常 重要 的 角色 。 
这 些 寻 址 方式 显然 是 那些 计算 机 体系 结构 研究 者 的 兴趣 所 在 。 一 种 有 效 的 体系 结构 应 该 能 够 
无 延迟 地 将 抽象 数据 元 素 的 地 址 映射 到 存储 器 真实 数据 元 素 的 位 置 上 。 


过 程 ， 子 程序 和 函数 | 
术语 过 程 、 子 程序 和 函数 用 于 高 级 语言 和 低级 语言 的 教材 和 论文 中 一 一 有 时 可 以 互 
换 。 严 格 地 说 ， 这 些 术 语 是 不 可 互 换 的 ， 因 为 它们 之 间 有 些 区 别 ， 尽 管 这 些 区 别 倾向 于 
根据 不 同 的 领域 而 变化 (例如 ，C 程序 设计 或 FORTRAN 程序 设计 )。 
@ 子 程序 是 主 程序 调用 的 一 段 代 码 ， 它 执行 结束 后 会 返回 调用 点 。 低 级 语言 总 是 会 
提供 子 程序 调用 和 返回 机 制 。 例 如 68K 代码 中 的 BSR fe RTs 与 ARM 代码 中 的 BL 
和 mov pe,lr, 
o 过 程 是 对 子 程序 的 扩展 ， 可 以 使 用 输入 和 输出 参数 。 术 语 “过 程 ” 没 有 用 在 C 语 
言 中 ， 而 是 与 Pascal 语言 关联 在 一 起 。 
@ 函数 通常 被 定义 为 会 返回 一 个 值 的 子 程序 。C 语言 只 使 用 术语 函数 ( 即 没有 子 程 
序 和 过 程 )。 








4.1.1 存储 和 栈 

当 某 种 编程 语言 使 用 动态 数据 存储 调用 一 个 过 程 时 ， 这 被 存储 器 
称 作 激活 了 一 个 过 程 。 每 个 过 程 以 及 每 次 过 程 调用 都 有 一 个 与 
其 关联 的 激活 记录 ， 它 包含 所 有 执行 该 过 程 所 必需 的 信息 。 读 | 
者 可 以 将 一 个 激活 记录 视 作 过 程 对 世界 的 视图 。 支 持 递归 的 编 局 部 变量 当前 激活 
程 语言 使 用 动态 存储 ， 因 为 所 需 的 存储 空间 随 程序 的 执行 变 返回 地 址 记录 
化 。 存 储 必须 在 运行 时 分 配 。 图 4-2 描述 了 激活 记录 的 概念 。 链接 到 其 他 地 址 

I X = (A+B) + (C-D) 等 表达 式 时 需要 临时 存储 空间 ， a 
因为 在 计算 C-D 时 A+B 的 结果 必须 被 保存 在 某 处 。 图 4-2 所 
描述 的 激活 记录 有 时 也 被 称 作 帧 。 当 一 个 激活 记录 被 使 用 过 之 ee 
后 ， 执 行 从 过 程 返回 的 命令 会 释放 该 记录 所 占 的 存储 空间 。 现 omen 前 一 激活 
在 来 看 看 如 何在 机 器 级 创建 和 管理 帧 ， 并 说 明 怎 样 使 用 两 个 指 记录 








返回 地 址 
针 寄存 器 高 效 地 创建 与 释放 激活 记录 。 链接 到 其 他 地 址 


1. 栈 帧 与 局 部 变量 
过 程 通常 需要 为 它们 的 临时 变量 申请 局 部 工作 区 ( local 
workspace )。 术 语 “ 局 部 ”的 意思 是 工作 区 是 过 程 私 有 的 ,不 图 4-2 激活 记录 
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能 被 调用 程序 或 其 他 子 程序 访问 。 如 果 一 个 过 程 是 可 重 入 的 ?或 递归 使 用 的 ， 它 的 局 部 变量 
不 仅 与 过 程 本 身 也 与 它 的 使 用 情况 密切 相关 。 换 句 话 说， 每 次 调用 一 个 过 程 都 必须 为 它 分 配 
一 个 新 的 工作 区 。 如 果 一 个 过 程 已 被 分 配 了 区 域 固定 的 工作 区 ， 它 的 运行 被 中 断 并 且 又 被 中 
断 例 程 调用 ， 那 么 固定 区 域内 的 任何 数据 都 有 可 能 被 过 程 的 重用 所 覆盖 。 


栈 指针 和 帧 指针 

有 两 种 与 栈 帧 有 关 的 指针 千 万 不 要 混淆 : 栈 指针 (SP) 和 由 指针 (FEP)。 通 常 ， 所 
有 CISC 计算 机 都 维持 一 个 硬件 SP 指针 ， 当 执行 BSR 或 RTS 时 它 会 自动 调整 。ARM 那 
样 的 RISC 处 理 器 没有 显 式 的 SP 指针 ， 尽 管 按照 约定 T13 会 作为 ARM EF HAP HR 
指针 。 


栈 指针 总 GRH, WAEA NiE 的 底 。 在 当前 过 程 执行 期 间 栈 指 针 可 
以 改变 ， 但 帧 指针 却 保持 不 变 。 用 乒 指针 或 帧 指针 都 可 以 访问 栈 帧 中 的 数据 。 按 照 约 





Z, rll RAE ARM 环境 中 的 帧 指针 ，68K 环境 中 则 使 用 A6。 





怎样 通过 将 栈 指针 向 上 移动 d 个 字 节 来 创建 一 个 4& 字 节 的 栈 帧 的 。 在 本 节 中 ， 假 定 栈 指针 向 
上 朝 低地 址 方向 生长 ， 并 且 总 是 指向 当前 位 于 栈 顶 的 项 。 有 些 栈 指 向 栈 的 下 一 个 空闲 元 素 。 





(gett ge 
栈 指针 a 
a) 子 程序 调用 后 栈 的 状态 。 b) 通过 将 栈 指针 上 和 
许多 处 理 器 将 返回 地 址 放 在 栈 顶 移 d 个 字 节 来 分 配 栈 帧 @ 
K 4-3 栈 帧 


因为 栈 朝 着 存储 右 的 低地 址 端 生 长 ， 创 建 栈 帧 后 栈 指针 会 递减 。 例 如 ， 通 过 下 面 的 指令 
可 以 在 存储 器 中 预 留 100 个 字 节 : 


SUB r13,r13, #100 ; 将 栈 指针 上 移 100 个 字 节 

请 注意 ， 按 照 约定 程序 员 会 使 用 r13 作为 栈 指 针 。 在 从 子 程序 返回 之 前 ， 必 须 执 行 指令 
ADD r13,r13,#100 将 栈 指针 下 移 从 而 释放 栈 帧 。 通 常 ， 对 栈 帧 的 操作 必须 是 平衡 的 ; 即 如 果 
将 一 些 数据 放 在 栈 帧 中 ， 那 么 一 定 要 记得 将 其 移 除 。 请 考虑 下 面 这 个 简单 的 过 程 实例 。 请 注 
意 ， 这 也 许 不 是 最 高 效 的 代码 。 你 能 看 出 为 什么 吗 ? 


Proc SUB r13,r13,#16 ; 将 栈 指针 上 移 16 个 字 节 
Code ; 部 分 代码 
STR rl, [r13, #8] ; 将 数据 保存 到 在 栈 帧 中 栈 顶 下 8 字 节 处 
Code ; 其 他 代码 


O 中 断 程 序 可 以 中 断 或 使 用 一 个 重信 子 程序 ， 而 状态 信息 不 会 因 重 用 而 改变 。 
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ADD r13,r13,#16 ; 退出 栈 帧 
MOV pe,r14 ; BART … 恢复 PC 以 返回 
可 以 用 栈 指针 来 访问 栈 帧 中 的 临时 变量 。 在 图 4-4a 中 ,变量 XYZ 位 于 栈 指针 下 12 字 节 
处 ， 可 以 通过 有 效 地 址 [ri3,#12] 访问 XYZ。 因 为 栈 指针 会 随 着 其 他 信息 进入 或 离开 栈 而 移 
动 ， 最 好 构造 一 个 带 有 独立 于 栈 指 针 的 固定 指针 的 栈 帧 。 





变量 XYZ F SP + 12, 变量 好 Z 位 于 FP+8， 
栈 顶 之 下 12 字 节 处 。 栈 帧 之 上 8 字 节 处 。 
a) 通过 栈 指针 访问 一 个 变量 b) 通过 帧 指针 访问 一 个 变量 


图 4-4 访问 栈 帧 中 的 变量 


图 4-4b 用 帧 指针 (FP) 描述 了 栈 帧 。 此 时 帧 指针 指向 栈 帧 的 底部 且 与 栈 指 针 无 关 ( 即 如 
果 数 据 入 栈 ， 栈 指针 将 变化 ， 但 帧 指针 保持 不 变 )。 若 假设 r11 为 帧 指针 ， 则 可 以 通过 帧 指 
针 访 问 位 于 地 址 [r11,#-8] 处 的 变量 。 


用 链接 和 取消 链接 指令 管理 栈 帧 

68K 通过 它 的 LINK 和 UNLK 指令 来 支持 栈 帧 ， 它 们 可 以 通过 一 次 操作 来 创建 或 释放 
栈 帧 。LINK 指令 将 帧 指针 的 当前 值 保 存在 栈 顶 ， 然 后 将 栈 指针 的 当前 值 放 在 帧 指针 中 。 
按照 约定 ，A6 被 用 作 帧 指针 。 然 后 将 栈 指 针 向 上 移动 d 个 字 节 以 创建 栈 帧 。 现 在 帧 指针 
指向 它 的 旧 值 ， 和 位 于 栈 帧 底部 ， 而 栈 指针 则 指向 栈 帧 的 顶部 。 例 如 ， 指 令 LINK FP,#-12 
将 创建 一 个 12 字 节 的 乒 帧 ， 而 指令 UNLK FP 则 会 释放 这 个 栈 帧 。 

FAF, 部 分 展示 了 子 程序 A 中 的 栈 帧 ，b 部 分 为 调用 子 程序 B 后 的 栈 帧 。 现 在 
帧 指针 中 的 值 是 创建 栈 帧 B 之 前 的 栈 指针 。 正 如 读者 所 看 见 的 ， 谋 套 的 子 程序 将 在 栈 中 
创建 连续 的 栈 帧 。 


BSR A ; 调用 A 


A LINK FP,#-8 7 A Wt 





BER B ; WAB 

es FP ; Aiha 

RPS ; 从 A 返回 
a) 执行 子 程序 b) 执行 子 程序 n Link reia; BARB 
A 时 栈 的 状态 B 时 栈 的 状态 $ 
B 
; Baw B a 
; ABREB © 
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| 因为 FP 指向 栈 帧 的 底部 ， 所 有 局 部 变量 都 可 以 通过 带 偏 移 量 的 寄存 器 间接 寻 址 方 
式 访问 ， 而 FP 被 用 来 访问 它们 的 寄存 器 。 在 子 程序 B 的 最 后 将 执行 下 面 的 指令 序列 : 
UNLK FP ; 回收 子 程序 B RMA 
RTS ; 返回 到 调用 位 置 

UNLK 指令 将 释放 栈 帧 。 它 首先 将 帧 指针 的 内 容 加 载 到 栈 指 针 中 ， 就 是 创建 栈 帧 也 之 

前 栈 指 针 的 值 。 通 过 这 一 操作 ， 栈 帧 B 将 被 释放 。 下 一 步 将 栈 顶 的 数据 项 出 栈 并 将 其 放 

在 FP 中， 从 而 将 栈 和 FP 的 内 容 恢复 到 Link 指令 执行 前 的 状态 。 

UNLK 之 后 将 执行 RTS 指令 返回 子 程序 A。 子 程序 A 将 从 返回 的 位 置 继 续 执行 。 

LINK 和 UNLK 指令 被 用 于 支持 递归 过 程 。 

读者 也 许 想 知道 术语 Link 与 UNIK 来 自 何 处 。 每 次 执行 指令 LINK 时 ， 帧 指针 的 当前 

值 都 会 被 入 栈 ， 新 的 帧 指针 将 指向 栈 中 保存 的 帧 指针 旧 值 。 这 种 组 织 构成 了 一 种 叫 作 链 

| 接 表 的 数据 结构 。 


pee re 


ARM 处 理 器 既 没 有 创建 栈 央 的 链接 指令 ， 也 没有 返回 时 释放 栈 帧 的 取消 链接 指令 。 必 
须 通 过 一 些 比较 麻烦 的 方法 完成 这 些 操 作 。 要 创建 一 个 栈 帧 ， 可 以 通过 执行 下 面 的 指令 将 旧 
的 链接 指针 入 栈 ， 然 后 将 栈 指针 上 移 d SEW. 


SUB sp,sp,#4 ; 将 栈 指针 上 移 32 位 字 

STR fp, [sp] ; 将 栈 指针 入 栈 

MOV £p,sp ; 将 栈 指针 复制 给 帧 指针 ， 使 其 指向 栈 底 
SUB sp,sp,#8 ; 将 栈 指 针 上 移 8 个 字 节 (4A a 等 于 8) 


在 这 段 代码 里 ，fp 代表 帧 指针 。 帧 指针 指向 栈 的 底部 ， 可 被 用 来 访问 帧 中 的 局 部 变量 。 
按照 约定 ， 寄 存 器 rll 被 用 作 帧 指针 。 在 子 程序 的 末尾 ， 通 过 下 面 的 指令 释放 栈 帧 : 





MOV sp, fp ; 恢复 栈 指针 
LDR fp, [sp] ; 从 栈 中 恢复 旧 的 帧 指针 
ADD sp, sp, #4 ; 将 栈 指针 下 移 4 FT, KAR 
a) 栈 的 初始 状态 b) 在 栈 中 为 帧 指针 预 留 c) 将 旧 的 帧 指针 保存 
空间 SUB sp,sp, #4 在 栈 中 STR fp, [sp] 


新 的 栈 帧 


请 注意 这 是 旧 的 帧 指针 
( 即 pre-frame 的 值 ) 





d) 使 新 的 帧 指针 指 e) 将 栈 指 针 上 移 8 个 字 节 ， 建 
向 栈 底 MOV fp, sp 立 局 部 工作 区 SUB sp,sp,#8 


图 4-5 栈 帧 的 变化 
图 4-5 逐条 指令 地 介绍 了 栈 帧 的 生长 方式 。 请 注意 旧 的 帧 指针 出 现 了 两 次 : 一 次 作为 栈 


中 旧 的 /前 一 个 栈 帧 。 在 实践 中 ， 我 们 使 用 后 递减 多 存储 指令 srwFp， 将 链接 寄存 器 〈 含 有 
返回 地 址 ) 和 帧 指针 放 入 栈 中 。 


STMFD sp!, {lp,£p} ; 从 栈 中 恢复 旧 的 链接 寄存 器 
SUB sp,sp, #4 ; 将 栈 指针 下 移 4 个 字 节 
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2. ARM 处 理 器 栈 帧 实例 
下 面 的 代码 描述 了 如 何在 ARM 处 理 器 上 建立 一 个 栈 帧 。 它 将 寄存 器 入 栈 ， 调 用 一 个 子 
程序 ， 保 存 帧 指针 和 链接 寄存 器 ， 创 建 一 个 单个 字 的 帧 ， 访 问 参 数 ， 然 后 返回 调用 位 置 。 


AREA TestProg, CODE, READONLY 


ENTRY 

Begin 

Main ADR sp, Stack ; 将 r13 设 为 栈 指针 
MOV r0,#124 ; 设置 一 个 哑 参 数 
MOV fp, #123 ; 哑 帧 指针 
STR r0,[sp,#-4]! ; BRAK 
BL Sub ; 调用 子 程序 
LDR r1, [sp] ; 载 入 数据 

Loop B Loop ; 等 待 (RB) 

Sub STMFD sp!,{fp,lr)  ; 帧 指针 和 链接 寄存 器 压 栈 
MOV fp, sp ; 帧 指针 指向 帧 底 
SUB sp, sp, #4 ; 创建 栈 帧 《一 个 字 ) 
EDR r2, [fp, #8] ; 获得 先前 被 压 入 栈 的 参数 
ADD r2,r2,#120 ; 对 该 操作 进行 一 个 哑 操 作 
STR r2,{fp,#-4) ; 将 其 保存 在 栈 帧 中 
ADD sp, sp, #4 ; 清除 栈 帧 
LDMFD sp!, {fp,pce} ; 恢复 栈 指针 并 返回 
DCD 0x0000 ; 清空 存储 器 
DCD 0x0000 
DCD 0x0000 
DCD 0x0000 

Stack DCD 0x0000 ; 栈 起 始 处 〈 栈 向 低地 址 方向 生长 ) 
END 


图 4-6 描述 了 这 段 代码 执行 时 栈 的 行为 。 图 4-6a 为 栈 的 初始 状态 。 在 图 4-6b H, S% 
入 栈 。 而 图 4-6c 中 ， 帧 指针 和 链接 寄存 器 被 指令 sTMFD sp!,{fp,1r} 送 入 栈 中 。 指 令 sTMFD 
使 栈 向 低地 址 处 生长 ， 栈 指针 指向 位 于 栈 项 的 当前 项 。 

图 4-6d 中 ， 在 栈 顶 创建 了 一 个 4 字 节 的 字 。 最 后 ， 图 4-6e 说 明 如 何 使 用 带 有 帧 指针 的 
寄存 器 间接 寻 址 方式 来 访问 被 压 入 栈 的 参数 并 移动 到 新 的 栈 帧 中 。 





| | 
as LE | 
oa | [SP > 
[SP | 0 ae 
a) 栈 的 初始 状态 b) 一 个 参数 压 栈 后 栈 的 c) HFP fp A Ir A 
状态 存 器 压 栈 后 栈 的 状态 





d) 在 栈 中 创建 一 个 4 o) 执行 完 该 序列 后 栈 的 状态 L 
字 节 空间 后 栈 的 状态 LDR r2; [fp,#8] ; 获得 参数 a 
ADD r2,r2,#120 ; #120 = 


STR r2, [fp,#-4] ; 将 和 存 入 栈 帧 
图 4-6 执行 示例 代码 时 栈 的 行为 
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图 4-7a 给 出 了 ARM 处 理 器 开发 系统 的 一 个 快照 ， 代 码 被 加 载 人 模拟 器 后 寄存 器 的 内 容 
和 栈 的 状态 。 在 图 4-7b 中 ， 代 码 已 经 执行 到 子 程序 调用 处 。 可 以 看 到 栈 指针 (r13 ) 指向 地 
HE 0x08CC 处 ， 该 单元 的 值 为 0x7C (被 送 入 栈 的 寄存 器 r0 的 值 )。 在 图 4-7c 中 ,已 经 执行 
到 app 指令 。 可 以 看 到 栈 指针 为 0x80C0， 链 接 寄存 器 和 旧 的 帧 指针 已 经 人 栈 。 图 7-4d 中 ， 
子 程序 已 经 执行 完 并 已 返回 到 调用 程序 。 图 7-4e 显示 了 程序 完成 时 的 状态 。 





Execution Window - CLEMENTS. 


set up r13 as the stack p 
set up a dummy parameter 
dummy frame pointer 

push the parameter 

call the subroutine 
retrieve the data 


sp!.{fp, lr} push frame-—pointer and li 
ftp, sp frame pointer at the bott 
sp, Sp, #4 :Create the stack frame (o %nzcviftt User32 加 
r2.[ip, #8] :get the pushed parameter j] i 
r2.r2,#120 do a dummy operation on t 
r2.[fp,#-4] store it in the stack fra 
sp,sp, #4 :clean up the stack frame 
sp!.{fp.pc} restore frame pointer and, 
WZ 


Memory Windows Ane ngr) € 
0xe28dd004 
0xe8bd8800 

x00000000 


ARM® Software 





0x00000000 
0x00000000 
0x00000000 
0x00000000 

:set up rl3 as the stack p 0x00000000 

;set up a dummy parameter 

dumny frame pointer 

push the parameter 

call the subroutine 

retrieve the data 


sp!.{fp. lr} ipush frame-pointer and li 
fp.sp frame pointer at the bott 
sp.sp. #4 create the stack frame (o nzcvift User32 
r2,[(fp, #8] [get the pushed parameter le 4 g 
r2.r2, #120 ido a dummy operation on t 
r2,[fp. #-4] :store it in the stack fra 
sp. sp. #4 clean up the stack frame 
sp!.{fp. pc} restore frame pointer and 
ati 


Memory Window: Ox80c0 (1) 





ARM? Software 


For Help, press F1 i : PRP 
b) 进入 子 程序 后 寄存 器 和 存储 器 状态 的 快照 
图 4-7 执行 示例 代码 时 寄存 器 和 存储 器 状 态 的 快照 








sp. Stack ;set up zl3 as the stack p 
rO,#124 set up a dummy parameter 
fp. #123 :dummy frame pointer 

r0. [sp]! :push the parameter 

Sub :Call the subroutine 
r1,[sp] retrieve the data 

Loop 


sp!.{fp. lr} :push frame—-pointer and li 
fp.sp ;frame pointer at the bott 
sp.sp. #4 create the stack frame (o 
r2.[fp, #8] :get the pushed parameter 
r2,r2, #120 ;do a dummy operation on t 
r2.[fp.#-4] ;store it in the stack fra 
sp.sp.#4 ;clean up the stack frame 
sp!,{fp. pc} :restore frame pointer and 


Memory Window: | BOO (1) 
Ox00000000 
0x00000000 


0x00000000 
nannnnnnnn 


ARM” Software 








AREA TestProg, CODE. READONLY 
TR 


sp. Stack :set up rl3 as the stack p 

r0, #124 ;set up a dummy parameter 

fp. #123 :dummy frame pointer 

r0, [sp]! push the parameter 

Sub ;call the subroutine 9 

rl. [sp] [retrieve the data 0x00000000 
Loop 0x000080c4 


sp!.{fp.lr} ipush frame-pointer and li 

fp. iframe pointer at the bott 

sp. sp. zcreate the stack frame (o wnzcvift User32 | 
r2. R ;get the pushed parameter ¥ 
r2 :do a dummy operation on t 

22, r ;store it in the stack fra 

sp. ;Clean up the stack frame 

sp!, ¡restore frame pointer and | 


LZ 





d) 退出 子 程序 前 寄存 器 和 存储 器 状态 的 快照 
图 4-7 ( 续 ) 
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set up r13 as the stack p 
set up a dummy parameter 0x00000000 


dummy frame pointer Ox00000000 
:push the parameter Ox00000000 


call the subroutine Ox00000000 
:retrieve the data Oxd0000000 
0x0000007b 
Ox00000000 
Dx000080cc 
-push frame-pointer and li 0x00008094 
frame pointer at the bott 0x00008098 
create the stack frame (o wnzcvift User32 ™ 
-get the pushed parameter 4 p 
ido a dummy operation on t 
r2, fp. #-4) store it in the stack fra 
sp.sp. #4 clean up the stack frame 
sp!.{ftp. pc} -restore frame pointer and, 
of 


Memory Window: 0x80c0 (1) 


0x00000000 
0x000000f4 
0x0000007b 
0x00008094 
0x0000007c 
0x00000000 
0x00000000 
naennnnnnnn 





ARM® Software 


For Help, press F1 aaa eT ca 
e) 程序 末尾 寄存 器 和 存储 器 状态 的 快照 


图 4-7 ( 续 ) 


4.1.2 通过 栈 传递 参数 


在 介绍 了 过 程 和 存储 器 分 配 的 基础 知识 之 后 ,我 们 将 讨论 一 些 细节 并 解释 如 何 通过 栈 向 
过 程 传递 参数 。 我 们 还 将 特别 介绍 底层 机 器 体系 结构 是 如 何 支持 过 程 的 。 

可 以 通过 两 种 方式 将 参数 传递 给 过 程 : 通过 值 和 通过 引用 。 在 前 一 种 方法 中 ， 传 递 的 是 
参数 实际 值 的 拷贝 ;而 在 后 一 种 方法 中 ， 参数 的 地 址 在 程序 和 过 程 / 函数 间 传 递 。 这 一 区 别 
非常 重要 ， 因 为 它 会 影响 参数 处 理 的 方法 。 当 通过 值 来 传递 参数 时 ， 过 程 将 收 到 参数 的 一 
份 拷贝 。 如 果 该 过 程 修改 了 这 个 参数 ， 新 的 参数 值 不 会 影响 保存 在 程序 中 某 处 的 该 参数 的 旧 
值 。 换 句 话 说 ， 通 过 值 来 传递 参数 会 克隆 参数 值 并 且 过 程 会 使 用 克隆 的 值 。 过 程 不 会 返回 克 
隆 的 值 。 

当 通 过 引用 传递 参数 时 ， 过 程 将 收 到 一 个 指向 参数 的 指针 。 这 时 ， 参 数 只 有 一 份 拷贝 ， 
过 程 能 够 访问 到 参数 的 值 ， 因 为 它 知道 参数 的 地 址 。 如 果 过 程 修 改 了 参数 ， 它 将 进行 全 局 修 
改 而 不 是 仅 在 过 程 内 修改 。 

1. 指针 与 C 语言 

指针 是 一 个 值 为 地 址 的 变量 。 使 用 某 些 语言 编程 时 可 以 不 必 理 解 指针 的 本 质 和 使 用 方 
法 一 一 但 对 C 语言 来 说 显然 不 是 这 样 。 实 际 上 ，C 语言 正 是 以 其 面向 指针 的 特点 而 闻名 的 。 
在 C 语言 里 ， 必 须 通 过 在 变量 之 前 加 一 个 星 号 来 显 式 地 声明 某 变 量 是 一 个 指针 。 请 考虑 下 
面 的 C 语句 ， 这 里 * 是 一 个 整数 变量 而 是 指向 x 的 指针 。 


int x; 
int *y; 


操作 符 * 表明 ?是 一 个 指针 而 int 表明 该 指针 指向 一 个 整数 。 因 为 一 个 很 合理 的 理 


由 一 “编译 器 需要 知道 指针 所 指 的 每 个 对 象 的 大 小 ，C 语言 要 求 指针 与 它们 访问 的 数据 具有 
相同 的 数据 类 型 。 

当 把 一 个 星 号 放 在 指针 之 前 时 ， 表 示 direferencing 指针 ( 即 访问 指针 所 指 的 数据 )。 例 
如 ， 表 达 式 p = *q 表示 “将 指针 q 所 指 的 值 赋 给 变量 p”。 

创建 了 一 个 指针 后 ， 必 须 将 其 初始 化 。 为 了 将 指针 绑 定 到 值 x 上 ， 应 完成 以 下 操作 


y = &X; 
& 操作 符 获 得 变量 的 地 址 。 可 以 将 指针 的 声明 与 初始 化 合并 在 一 起 ， 如 下 所 示 : 
int x = 12; /* 声明 整数 变量 x = 12 */ 


int *P_x = &x; /* 声明 Px 为 指向 整数 x 的 指针 */ 

请 考虑 下 面 用 C 语言 编写 的 轮 询 循环 (polling loop) 实例 。 轮 询 循环 是 输入 /输出 (IO ) 
机 制 的 一 大 特点 。 它 在 一 个 循环 里 读 取 某 个 设备 的 状态 ， 当 设备 准备 好 进行 一 次 数据 传输 时 
将 退出 循环 。《 计 算 机 存储 与 外 设 》 第 4 章 将 介绍 LO。 


void main (void) 


/* REPEAT 
读 入 输入 设备 的 状态 字 节 
UNTIL 设备 就 绪 
从 设备 读 入 数据 
wf 
yn Ri a Wh” 
int *P_port; ] /* 创建 一 个 指向 端口 的 指针 */ 
P_port = (int*) 0x4000; /* 使 指针 指向 端 已 */ 
do { } while ((*P_port & 0x0001) == 0); /* 等 待 设备 就 绪 */ 
x = *(P_port + 1); /* 读数 据 */ 


} 

这 段 代码 读 取 某 个 存储 映射 输入 设备 的 内 容 。 存 储 映 射 输入 设备 在 程序 员 看 来 就 像 其 他 
存储 器 单元 一 样 (参见 《计算 机 存储 与 外 设 》 第 4 章 )。 我 们 声明 了 一 个 变量 *p_port ， 指 向 地 
LEA 4000, 的 存储 映射 输入 /输出 端口 。 必 须 通 过 下 面 的 语句 将 该 变量 转换 为 一 个 存储 指针 : 

P_port = (int*) 0x4000. 

必须 将 变量 类 型 强制 转换 为 整 型 ,因为 C 编译 器 必须 知道 指针 所 指 对 象 的 类 型 。 在 
文 个 例子 里 ， 地 址 400016 是 一 个 状态 端口 ， 告 诉 我 们 IO 设备 是 否 已 经 就 绪 ， 而 地 址 为 
4002,6 则 是 用 来 传递 数据 的 数据 端口 。 实 际 的 轮 询 循环 可 表示 为 

do { } while ((*P_port & 0x0001) == 0); 

当 端口 0 时 ，ao-…while 循环 完成 空 操作 {)。 只 要 端口 的 就 绪 位 被 置 为 1， 
就 会 退出 轮 询 循环 ， Alas or a 
BEAL, AN C 语言 中 整数 为 两 个 字 节 ， 因 此 ep al 

2. 函数 和 参数 

下 面 来 看 看 当 编译 高 级 语言 函数 swap (int a, int b) 时 怎样 将 参数 传递 给 函数 ， 该 函 
数 的 作用 是 交换 两 个 值 。 


void swap (int a, int b) /* 函数 将 交换 值 a 与 b */ 
{ int temp; 
temp = a; /* 将 a 拷贝 到 temp, b# Fla, temp 拷贝 到 b */ 
a= b} 
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b = temp; 
} 
void main (void) 
{ amt x = 2, y = 3% 
swap (x, y); /* tia fb */ 
} 


我 们 说 这 段 代码 将 交换 两 个 值 ; 实际 上 ， 它 的 交换 并 不 成 功 。 为 了 确定 为 什么 这 段 代码 
不 能 工作 ， 我 们 将 手工 地 交叉 编译 这 段 代 码 并 跟踪 它 的 行为 。 下 面 是 一 个 非 优化 编译 器 的 输 
出 ; 即 编译 融 并 没有 生成 高 效 的 代码 。 例 如 ， 要 把 一 个 立即 数 写 人 存储 器 ， 读 出 ， 再 放 在 存 
储 帮 中 男 外 一 个 位 置 ， 它 只 能 依次 完成 这 些 操 作 。 如 果 数 据 已 经 在 寄存 器 中 ， 优 化 编译 器 不 
会 再 次 从 存储 器 中 读 出 该 数据 。 

该 程序 的 结构 为 main 函数 紧 跟 在 C RŠ swap 之 后 。main 函数 首先 初始 化 栈 帧 ， 保 存 
要 交换 的 两 个 变量 。 接 下 来 ， 在 调用 函数 swap 之 前 将 它们 读 出 来 ， 并 将 它们 的 值 放 在 栈 顶 。 

函数 swap 将 建立 第 二 个 栈 帧 ， 在 交换 两 个 值 的 时 候 保存 临时 变量 。 接 下 来 ， 使 用 栈 中 
的 参数 和 当前 栈 帧 中 的 临时 变量 完成 交换 。 最 后 ， 删 除 swap 中 的 栈 帧 并 返回 main 函数 。 当 
main 图 数 返 回 时 ， 它 的 栈 帧 也 将 被 释放 并 且 程 序 停止。 


AREA SwapVal, CODE, READONLY 


Stop EQU 0x11 ; 程序 终止 并 浸出 的 代码 
ENTRY 
MOV sp, #0x1000 ; 设置 栈 指针 
MOV fp, #0xXFFFFFFFF > 初始 化 FP 用 于 跟踪 
B main ; 跳 转 到 函数 main 
; void swap (int a, int b) 


Parameter a is at [fp]+4 
Parameter b is at [fp]+8 












+ 
i Variable temp is at [fp] -4 
swap ‘SUB sp, sp, #4 ; RM: sp 下 降 
STR fp, fap] ; MHAR 
MOV fp, sp ; WTR AE Te PR JK 
SUB sp, sp, #4 ; sp 加 和 不 字 节 指向 temp 
{ 
int temp; 
i temp = a; 
LDR ro, [fp, #4] ; 从 栈 中 获得 参数 a 
STR rü, (fp, #-4] ; Haha +h temp 
i a = b; 
LDR r0, [fp, #8] ; 
STR r0, [fp, #4] ; 
3 b = temp; 
LDR ro, (fp, #-4] ; ARMIK temp 
STR r0, [fp, #8] ; temp 复制 到 b 
i } 
MOV sp,fp ; käi 
LDR fp, [fp] ; AR 的 
ADD sp,sp, #4 ; MA PR 44 
MOV pe, ir 通过 将 链 持 寄存 器 载 信 PC HRY 
? void main (void) 
; Variable x is at [fp]+4 
; Variable y is at [fp]+8 
main ; 在 函数 main 中 为 天 和 了 tlth 
SUB sp,sp,#4 ; 楼 指针 上 移 
STR fp, [sp] ; 将 帧 指针 入 栈 
MOV fp, sp it EHI BUR 
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3 sp | #8 es 
{ 
int x= 2, ye 3 
MOV r0, x= 
I r0, (fp, #-4 HF x 
1 r0,#3 3 
STR ro, (fp, #-8) y Wl 
swap (x, y); 
DR xO, Ip, hi BS 
TR rü, (sp, #-4)! y Af 
R ro, [fp,#-4) it f 
isp, #-4] ! At 
t wap ie: 
. sp, WALE 
fp 中 恢复 加 名 
sp Hie 24 
O/S 24 31 


再 次 浏览 这 段 人 代码， 观察 栈 的 状态 。main 函数 初始 化 参数 ， 将 它们 放 人 栈 帧 ， 并 在 调 
用 函数 swap 之 前 将 参数 的 值 放 入 栈 中 。 图 4-8a 一 d 分 别 展 示 了 栈 在 程序 执行 过 程 中 4 个 阶 
段 的 状态 。 函 数 swap 按 要 求 交 换 了 两 个 参数 ， 这 正好 就 是 它 的 设计 初衷 。 不 幸 的 是 ， 参 数 
仅 在 函数 内 交换 ， 因 为 它们 是 通过 值 来 传递 的 ， 因 此 是 main 中 变量 的 拷贝 。 参 数 只 能 在 隆 
数 swap 的 栈 帧 中 交换 ， 它 会 在 退出 swap 时 释放 。main 中 的 变量 则 保持 不 变 。 相 反 ， 必 须 在 
调用 函数 中 交换 变量 。 

逐 行 阅读 代码 并 参考 图 4-8， 可 以 看 到 main 函数 创建 了 一 个 包含 变量 x 和 ?了 两 个 位 置 的 
栈 帧 ; 然后 它 在 调用 函数 swap 之 前 将 两 个 变量 的 拷贝 人 栈 。 图 4-8 中 存储 视图 右边 的 偏 移 
量 是 相对 帧 指针 的 。 

在 图 4-8c 中 ， 存 储 映射 描述 了 函数 swap 内 创建 了 栈 帧 之 后 的 系统 状态 。 请 注意 现在 
使 用 新 的 帧 指针 访问 变量 。 变 量 由 图 4-8c 右 侧 的 两 组 偏 移 量 定义 : 一 组 给 出 了 变量 位 置 
相对 于 main 函数 中 fo 值 的 偏 移 量 ， 另 一 组 则 给 出 了 相对 于 swap 函数 中 fp 值 的 偏 移 量 。 


参数 x 和 y 的 值 依 





a) main 函数 中 下 面 的 指令 b) main 函数 中 下 面 的 指令 将 两 个 

创建 栈 帧 后 栈 的 状态 参数 入 栈 后 栈 的 状态 

SUB sp,sp, #4 MOV r0,#2 

STR fp, [sp] STR r0, [fp,#-4] 

MOV fp,sp MOV x0, #3 

SUB sp,sp, #8 STR r0, [sp, #-8] 
然后 两 个 参数 人 栈 


LDR r0, [fp, #-8] 
STR r0, (sp, #-4]! 
LDR r0, [fp, #-4] 
STR r0, [sp,#-4] ! 


图 4-8 ”将 参数 传递 给 子 程序 的 传 值 方法 
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m 
24 +0< 一 相对 FP “4 
a 20 +4 前 值 的 地 


12+12 
-8< 一 一 相对 前 一 
-4 个 FP 值 的 





c) swap 函数 创建 栈 帧 后 栈 的 状态 。 d) 执行 swap 函数 体 后 栈 的 状态 。 请 注 
新 的 栈 帧 4 字 节 深 ， 存 有 变量 temp ” 意 所 有 地 址 值 都 是 相对 FP 的 偏 移 量 


STR r0, [fp, #8] 


st 

的 值 。 栈 帧 由 下 面 的 语句 创建 LDR x0, [fp, #4] F 
SUB sp, sp, #4 STR roO, [fp,#-4] E 
STR fp, [sp] LDR r0, [fp, #8] E 
MOV fp,sp STR r0, [fp, #4] 2 
SUB sp,sp, #4 LDR r0, [fp,#-4] & 
© 


El 4-8 (28) 


图 4-8d 给 出 了 swap 中 完成 数据 交换 的 4 条 指令 。 检 查 代码 会 发 现 函 数 栈 帧 中 x 和 y 的 拷贝 
确实 被 交换 了 ,但 对 调用 函数 main 中 的 x 和 yy 值 来 说 却 什么 也 没有 发 生 。 

接 下 来 将 看 到 如 何 通 过 引用 ( 即 地 址 ) 将 参数 传递 给 函数 ， 以 及 怎样 编写 在 调用 环境 中 
交换 参数 的 过 程 。C 语言 使 用 按 值 调用 (call-by-value) 机 制 ， 变 量 的 值 只 能 没 着 一 个 方向 被 
传递 给 函数 一 一 调用 环境 中 不 能 改变 实际 的 参数 值 。 如 果 将 参数 传递 给 一 个 限 数 ， 然 后 在 卫 
数 中 修改 它们 的 值 ， 函 数 外 的 参数 值 不 会 变化 ， 就 像 前 一 个 例子 所 说 明 的 那样 ， 和 希望 被 交换 
的 值 的 拷贝 被 传送 给 函数 ， 函 数 交 换 值 但 并 不 返回 结果 。 这 一 问题 可 以 通过 传送 参数 的 地 址 
来 解决 ， 这 样 就 可 以 在 调用 环境 中 访问 参数 了 。 

3. 通过 引用 传送 

前 一 个 例子 中 的 函数 swap 可 以 很 容易 地 被 修改 为 : 通过 调用 swap (za，&b) 并 将 参数 a 
All 的 地 址 传送 给 被 调用 的 函数 swap 来 交换 两 个 参数 ， 如 下 面 的 高 级 语言 代码 所 示 : 


void swap (int *a, int *b) /* 交换 调用 程序 中 的 两 个 参数 */ 
{ int temp; f 





temp = *a 
*a = *b 
*p = temp; 


} 
void main (void) 
{ iat x = 2, ye Be 
swap(&x, &y); /* 调用 swap 并 传送 参数 的 地 址 */ 
} 
函数 头 指定 int *a 和 int *b 表明 这 两 个 值 是 指向 变量 a 和 ob 的 指针 。 语 名 temp = *a 
将 指针 a 所 指 的 值 赋 给 整数 变量 temp。 语 句 *b = *a 将 指针 a 所 指 的 值 赋予 指针 b 所 指 的 存 
储 单元 。 下 面 来 分 析 这 一 过 程 在 ARM 处 理 器 上 的 代码 ， 其 中 加 阴影 部 分 突出 显示 了 这 个 程 
序 中 与 前 一 个 例子 不 同 的 部 分 。 


AREA SwapVal, CODE, READONLY 


Stop EQU 0x11 ; 程序 终止 并 退出 的 代码 
ENTRY 
MOV sp, #0x1000 ; 设置 栈 指针 
MOV fp, #}0xFFFFFFFF ; 初始 化 FP 用 于 跟踪 


B main ; 跳 转 到 main 函数 
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BORD HERRA IEH 


void swap (int *a, int *b) 


Parameter a is at [fp]+4 
Parameter b is at [fp]+8 


Variable temp is at [fp]-4 


SUB sp,sp, #4 
STR fp, [sp] 
MOV fp,sp 

SUB sp,sp, #4 

{ 

int temp; 

temp = *a; 

LDR ri, lip, #4} 
LDR £2, fri] 
STR r2, [£p,#-4] 
ta = t 

LDR r0, [Fp, #8) 
LDR r3, [roj 
STR ES), EL 

b = temp; 

LDR r3, lfp, #-4] 
STR r3, [r9} 

} 

MOV sp, Ep 

LDR fp, [fp] 
ADD sp, sp, #4 
MOV pe,ir 


void main (void) 
Variable x is at [fp] -4 
Variable y is at [fp]-8 


SUB sp,sp,#4 
STR fp, [sp] 

MOV fp,sp 

SUB sp,sp,#8 

{ 

int # = 2; ¥ = 3% 

MOV r0,#2 

STR ro, [fp,#-4] 
MOV r0,#3 

STR ro, (fp, #-8] 
Swap (&x, &y) 

SUB r0,fp, #8 

STR rü, (sp,#-4]! 
SUB r0,fp, #4 

STR r0, (sp,#-4]! 
BL swap 

} 

MOV sp,fp 

LDR fp, [fp] 

ADD sp,sp, #4 

SWI Stop 

END 


; 创建 栈 帧 : sp FE 

; 帧 指针 入 栈 

; 帧 指针 指向 栈 帧 底部 

; sp 加 4 个 字 节 指向 temp 


获得 参数 a fy wet 


HH 保存 在 栈 由 中 的 temp 中 


Khaw bd HH 
落得 参数 的 值 


; FRED 保存 在 参数 a 中 


KR temp + 
fi temp RFE bP 


; 释放 栈 帧 : 恢复 sp 
; AR PRE 

; 栈 帧 下 移 4 G 
; 将 链接 寄存 器 的 内 容 加 载 到 PC 中 ， 返 回 


;i 创建 栈 帧 : sp 上 移 

; WEAR 

; 帧 指针 指向 栈 帧 底部 

; sp 上 移 8 个 字 节 以 保存 两 个 整数 


; x=2 


; x HAR 


= 3 


y = 
; Hy MAR BL 


调用 swap， 通 过 引用 传递 参数 
GR MP y 的 地 址 


; vy RSA 


TE RMP x BY Hb dl 


; 区 的 地 扯 入 楼 
; 调用 swap 一 一 返回 地 址 保存 在 1r 中 


; PARM: 恢复 sp 
; 从 栈 中 恢复 旧 的 栈 帧 
; 栈 指针 下 移 4 个 字 节 


在 函数 main 中 ， 通 过 以 下 指令 将 参数 的 地 址 人 栈 : 


SUB 
STR 


r0,fp,#8 


; RRP y 的 地 址 
xz0，[sp,#=-al]1; Y 的 地 址 入 栈 
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SUB r0, fp, #4 ; 
STR ro, lew, #-4] 1; x 
在 函数 swap 中 ， 
ri, [fp, #4] ; RESR a tos 


相对 新 FP 
的 地 址 








a)main 函数 中 的 代码 … b) 执行 下 述 代码 … 将 参 c) 执行 下 述 代码 … 调 用 子 


执行 后 栈 的 状态 数 地 址 人 栈 后 栈 的 状态 ”程序 并 创建 栈 帧 后 栈 的 状态 

SUB sp,sp,#4 SUB r0,fp,#8 SUB sp,sp, #4 

STR fp, [sp] STR r0, [sp,#-4]! STR fp, [sp] = 
MOV £p,sp SUB r0,fp, #4 MOV £p,sp S 
SUB sp,sp,#8 STR r0, [sp,#-4]! SUB sp, sp, #4 = 
MOV r0,#2 8 
STR r0, (fp, #-4] & 
MOV r0,#3 5 
STR r0, [fp,#-8] © 


图 4-9 通过 引用 将 值 传 给 子 程序 
操作 temp = *a 由 以 下 语句 实现 : 





LD! r2, [x1] 7 RTEA a i 
STR r2, [fp,#-4] ; 将 参数 a AFER F Wy temp 中 


4. 使 用 递归 

下 一 个 例子 ， 以 ARM Holding 的 文献 为 基础 ， 将 我 们 在 本 章 与 前 一 章 中 几 个 内 容 合并 
在 一 起 。 我 们 调用 一 个 函数 将 某 寄 存 器 中 的 内 容 转 换 为 二 进 制 数字 串 并 将 它们 打印 出 来 。 我 
们 递归 地 调用 这 个 函数 ， 并 使 用 过 程 调用 标准 作为 在 函数 调用 之 间 对 寄存 器 赋值 的 约定 。 这 
个 程序 借鉴 自 ARM 处 理 器 文献 [ARMdui0021A] 中 的 两 个 例 程 : 子 程序 utoa 将 一 个 无 符号 
整数 转换 为 十 进 制 数字 串 ; 子 程序 divio 将 一 个 数 除 以 10。 


ARM 过 程 调用 标准 

ARM 文献 包括 《 ARM 过 程 调用 标准 (APCS)》， 其 定义 了 程序 员 是 如 何 使 用 寄存 器 
以 及 在 过 程 之 间 传 递 信息 的 (与 MIPS 定义 寄存 器 别名 相同 的 方式 )。ARM 的 C 编译 器 
遵循 APCS， 而 且 如 果 和 希望 将 为 ARM 的 C 例 程 提供 调用 接口 或 阅读 /调试 C 编译 器 生 
成 的 代码 ， 那 么 它 对 汇编 语言 程序 员 来 说 也 十 分 重要 。 例 如 ，APCS 指明 了 哪些 寄存 器 


是 通用 寄存 器 以 及 堆栈 的 结构 如 何 。 下 面 的 表格 定义 了 那些 对 ARM 处 理 器 编程 的 人 所 
| a | 参数 1/ 整数 结果 / 暂 存 器 | 参数 3/ 暂 存 器 


用 的 APCS。 
ce APCS 名 
| 2 Serie [anamen 


ai 
















APCS 角色 
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(BE) 


APCS RE 
寄存 器 变量 1 | no | syw7 | 静态 基 址 /寄存 器 变量 7 



















wai 
过 各 内 请 有 生存 人 
| is | | rent aa 
态 基 址 /寄存 器 变量 程序 计数 器 

资料 来 源 : © Cengage Learning 2014. 

程序 为 存储 单元 convert 设置 初 值 ， 调 用 函数 utoa, JHE ARM 处 理 器 的 软 中 断 打印 
结果 。 因 为 已 经 使 用 了 APC 标准 ， 寄 存 器 被 重新 命名 ，al ~ a4 为 通用 参数 或 工作 寄存 器 ， 
vl 一 v5 为 寄存 器 变量 ， 它 们 的 值 将 在 函数 调用 间 被 保存 起 来 。 和 之 前 一 样 ，sp Ir Fil pe Hk 
次 是 栈 指针 、 链 接 寄 存 器 和 程序 计数 器 ， 分 别 为 寄存 器 r13 、rl14 和 Tl15。 

在 utoa 的 入口 ， 被 转换 的 整数 位 于 参数 寄存 器 a2 中 ， 寄 存 器 al 中 保存 了 一 个 指向 保 
存 了 串 的 字符 表示 的 缓冲 区 的 指针 。 在 该 例 程 的 出 口 ， 寄 存 器 al 指向 紧 接 在 串 后 的 下 一 个 
位 置 。 

当 调 用 divio 完成 除 以 10 的 操作 时 ，al 和 a2 中 的 值 将 被 保存 起 来 ， 放 在 寄存 器 v1 和 
v2 中 (vl 和 v2 都 将 在 递归 函数 utoa 的 入 口 保存 在 栈 中 )。 

子 程序 utoa 先 获得 x 的 值 ， 再 调用 子 程序 div10 将 其 除 以 10 以 获得 商 。 用 最 初 的 数 减 
去 商 的 10 售 将 得 到 余数 + =p 一 10+ (p/10 的 商 )。 为 了 避免 使 用 多 条 指令 计算 商 的 10 倍 ， 
我 们 使 用 下 面 的 语句 


SUB v2,v2,al, LSL #3; M v2 Ñ+ a1 的 8 倍 ,下 一 个 操作 
SUB v2,v2,al, LSL #1; A v2 Wk al 的 2 倍 , 得 到 v2 = v2 - 10° al 


在 得 到 了 0 ~ OGURA a, BT HF 30,,, FRA “0” ~ “9”, 
在 转换 完 第 一 位 数字 后 ，utoa 将 被 递归 地 调用 ， 直 到 商 为 0， 此 时 处 理 结束 。 


AREA DecimalConversion, CODE, READONLY 





ENTRY 
ToDec ADR r0,Convert ; 指向 要 转换 的 数据 
LDR a2, [r0] ; 将 要 转换 的 数据 加 载 到 参数 寄存 器 a2 
ADR al, String ; 将 缓冲 区 地 址 加 载 到 参数 寄存 器 al 
BL utoa ; 调用 转换 例 程 
ADR ri1,String ; 指向 结果 囊 
MOV  r2,#10 ; 打印 结果 ( 0xFFFFFFFF 最 多 10 个 数字 ) 
PrtLoop LDR vrO, [r1], #1 ; 获得 一 个 字符 并 且 指针 递增 
SWI 0 ; 打印 字符 
SUBS r2,r2,#1 ; 循环 计数 器 递减 
BNE PrtLoop ; BZ, HA 10 个 数字 均 已 打印 
SWI 17 ; H GAA O/s 功能 0x11) 


utoa STMFD sp!,{vl,v2,1r} ; 将 寄存 器 转换 为 十 进 制 串 一 一 保存 寄存 器 
MOV vi,al ; 保存 参数 al， 因 为 Giv10 SHEE 


MOV v2,a2 ; 保存 参数 a2 


div1i0 


Convert 
String 
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al,a2 ; div10 要 求 参数 在 al 中 

div10 ; 调用 div10 计算 al = a1/10 
v2,v2,al, LSL #3 ; V2 减 去 10 倍 的 al (a2 = a2 - 10al) 
v2,v2,al, LSL #1 ; 请 注意 这 里 用 8p + 2p = 10p 完成 乘 10 
al, #0 ; 商 为 0? 

a2,al ; 如 果 不 为 零 ， 则 将 其 保存 在 a2 中 

al,vl ; 将 指针 保存 在 al 中 

utoa ; 如 果 不 为 零 ， 则 递归 调用 该 倒 程 
v2,v2,#'0! ; 通过 加 0x30 将 最 后 的 数字 转换 为 ASCII 码 
v2, [al] ,#1 ; 将 该 数字 保存 在 缓冲 区 最 后 


sp!,{v1,v2,pc} ; 恢复 寄存 器 并 从 递归 函数 返回 


a2,al, 


#10 ; ad 除 以 10 的 子 程序 


al,al,al, LSR #2 ; Heal 中， 余数 在 a2 中 ， 返 回 
al,al,al, LSR #4 ; 除法 ! ÆA 1/10 = 0.1 
al,al,al, LSR #8 


al,al,al, LSR #16 

al,al LSR #3 

a3,al,al, ASL #2 

a2,a2,a3, ASL #1 

al,al #1 

a2,a2, #10 

pe,r14 ; 商 在 al 中 ,返回 
0x12345678 ; 数据 

0x0 ; 结果 的 位 置 


需要 对 div10 这 个 例 程 进行 一 些 说 明 。ARM 系列 处 理 器 的 某 些 成 员 没 有 提供 除法 指令 ; 
必须 通过 移 位 和 加 法 来 实现 除法 (Cortex M3/M4 处 理 器 提供 了 除法 指令 )。 然 而 ， 下 面 的 例 
程 却 利 用 处 理 器 加 上 或 减 去 一 个 被 移 位 的 操作 数 极其 巧妙 地 实现 了 将 一 个 操作 数 除 以 10 的 
运算 。 请 考虑 以 下 4 条 指令 ， 它 们 是 这 段 代 码 的 核心 。 


al, 
al, 
al, 


al 


al, 
al, 
al, 
pal, 


al, LSR 
al, LSR 
al, LSR 
al, LSR 


#2 
#4 
#8 
#16 


假设 寄存 器 al 中 的 数 为 1， 这些 指令 将 成 功 地 生成 


SUB 
ADD 
ADD 
ADD 


al,al,al,LSR #2 1 
al,al,al, LSR #4 0 
al,al,al,LSR #8 ; 0.110011 + 0.00000000110011 
al,al,al,LSR #16 0 
0 


-1 X 2% = 0.11 
.11 + 0.000011 = 0.110011 


-11001100110011 + 


= 0.11001100110011 


-0000000000000000+0.11001100110011 
0.110011001100110011001100110011 


让 我 们 更 仔细 地 看 看 这 段 代 码 。 要 将 十 进 制 数 0.11 转换 为 二 进 制 ， 会 得 到 一 个 递归 的 
二 进 制 序列 0.110011001100110011001100110011,。 它 与 上 面 带 有 移 位 操作 数 的 指令 序列 所 
生成 的 结果 相同 。 因 此 ， 这 些 操作 通过 乘 上 0.1, 所 对 应 的 二 进 制 序列 来 完成 除 以 10 运算 。 
下 一 节 将 简要 讨论 特权 模式 和 异常 ， 这 一 内 容 与 操作 系统 和 输入 /输出 技术 密切 相关 。 


4.2 ”特权 模式 和 异常 


接 下 来 的 内 容 





中 断 与 异常 ， 既 属于 硬件 与 接口 《计算机 存储 与 外 设 》 第 4 章 ) 范 
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围 ， 也 属于 体系 结构 与 ISA 范围 。 中 断 和 异常 是 一 些 强 制 计算 机 停止 正常 处 理 并 调用 异常 
处 理 程序 (通常 是 操作 系统 的 一 部 分 ) 进行 异常 处 理 的 事件 。 异 常 是 为 响应 内 部 硬件 、 或 软 
件 错误 、 或 外 设 请 求 而 引起 的 。 程 序 员 可 以 使 用 软 中 断 指令 调用 操作 系统 函数 ， 比 如 输入 或 
输出 操作 。 我 们 将 在 《计算 机 存储 与 外 设 》 第 4 章 更 详细 地 讨论 中 断 。 

先 来 看 看 异常 。 在 任 一 时 刻 ，ARM 处 理 器 都 在 表 4-1 列 出 的 某 一 种 模式 下 工作 。CPSR 
的 第 5 位 定义 了 当前 模式 。 最 普通 的 操作 模式 是 用 户 模式 。 只 要 发 生 了 中 断 或 异常 就 会 发 
生 一 次 模式 切换 。 每 一 种 模式 都 有 它 自己 的 保存 程序 状态 寄存 器 (SPSR)， 用 于 在 发 生 异 常 
时 保存 当前 的 CPSR。 当 异常 在 新 的 寄存 器 r13 和 r14 中 切换 时 ， 新 的 寄存 器 组 (或 体 ) 由 
表 4-1 中 给 出 的 名 称 标识 。 

表 4-1 ARM 处 理 器 的 操作 模式 和 寄存 器 组 名 称 


MERA SEER 
AP user 
rT EF 
iar [om (| bm “a 

异常 一 一 概述 


由 于 这 是 一 个 非常 重要 的 内 容 ， 这 里 给 出 一 个 概述 以 及 对 有 关 概 念 的 提示 。 异 常 像 
子 程序 一 畔 在 运行 时 插入 代码 中 。 异 常 通常 使 用 与 子 程序 相同 的 调用 一 返回 机 制 ; 主要 
区 别 在 于 调用 地 址 由 处 理 器 硬件 提供 。 典 型 情况 下 ， 处 理 器 对 异常 类 型 进行 译 码 并 读 取 
一 个 指向 异常 处 理 例 程 入 口 的 存储 指针 。 此 外 ， 有 些 处 理 器 还 会 保存 当前 状态 字 (以 及 
返回 地 址 )， 因 为 异常 不 应 该 改变 处 理 器 的 状态 。 

除了 硬件 中 断 外 ， 常 见 的 异常 还 有 : 由 于 存储 器 访问 错误 引起 页 故障 中 断 ， 用 户 提 
供 的 操作 系统 调用 ， 非 法 指令 异常 (例如 非法 操作 码 )， 除 0 异常 ， 等 等 。 异 常 总 是 由 操 
作 系 统 软 件 处 理 。 

有 些 处 理 器 会 在 异常 出 现时 改变 它们 的 操作 模式 。 这 些 模式 可 以 是 特权 模式 ， 该 模 
式 下 为 了 保护 操作 系统 的 完整 性 某 些 特定 的 操作 将 被 禁止 。 











图 4-10 展示 了 ARM 处 理 器 的 寄存 器 。 正 如 读者 从 图 4-10 中 看 到 的 那样 ， 在 每 一 种 操 
作 模 式 下 寄存 器 rl13 和 r14 都 会 被 复制 。 例 如 ， 如 果 发 生 了 特权 用 户 异常 ， 新 的 寄存 器 r13 
和 r14 将 分 别 被 叫 作 r13_SVC 和 rl14_SVC。 

当然 ， 在 编写 ARM 代码 时 ， 寄 存 器 r13_SVC 和 rl14 SVC 仍 被 写作 r13 和 r14。 请 记 
住 当 切换 到 特权 模式 时 ，rl13 Mrl 在 用 户 模式 下 的 值 将 不 可 用 ， 这 一 点 非常 重要 。 特 权 模 
式 带 有 它 自己 的 私有 寄存 器 一 一 r13 和 r14。 这 一 机 制 意味 着 程序 员 不 必 在 每 次 发 生 异 常 时 
(BRIERE TRER ) 保存 r13 和 r14。 

异常 可 由 内 部 和 外 部 事件 引起 。 外 部 事件 是 中 断 请 求 (IRQ)， 包 括 快速 中 断 请 求 
(FIQ)、 复 位 以 及 页 故障 。 内 部 异常 则 包括 软件 中 断 以 及 未 定义 的 指令 。 


RAF HARRI — EPRE 189 


发 生 异 常 时 ， 操 作 模 式 也 将 改变 


特权 寄存 器 ”退出 未 定义 中 断 快速 中 断 
(管理 员 寄 存 器 ) 寄存 器 寄存 器 寄存 器 寄存 器 
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图 4-10 ARM 处 理 需 的 体 寄存 器 组 (前 5 列 中 r0 ~ r12 Al rls 寄存 器 对 于 所 有 模式 都 相同 ; 
rl3 ~ r14 寄存 器 是 分 体 的 ; 最 后 一 列 中 ，r0 ~ r7 和 Tr15 寄存 器 对 于 所 有 模式 都 相同 ; 
r8 ~ rl4 寄存 器 则 是 分 体 的 ) 


当 发 生 异 常 时 , ARM 处 理 器 会 完成 当前 的 指令 〈 除 非 异 常 是 由 该 指令 的 执行 所 造成 的 )， 
然后 进入 异常 处 理 模式 。 下 面 是 要 发 生 的 事件 序列 。 

1) 操作 模式 改变 为 异常 对 应 的 模式 。 例 如 ， 中 断 请 求 会 选择 IRQ 模式 。 

2) 将 紧 接 在 异常 发 生 处 之 后 的 那 条 指令 的 地 址 拷贝 到 寄存 器 r14 中 。 即 异常 被 视 作 一 
种 子 程序 调用 ， 返 回 地 址 保存 在 链接 寄存 器 中 。 

3 ) 将 当前 处 理 器 状态 寄存 器 (CPSR) 的 当前 值 保存 在 新 模式 的 SPSR 中 。 例 如 ， 如 果 
异常 是 一 个 中 断 请 求 ，CPSR 将 被 保存 在 SPSR_irq 中 。 保 存 当 前 处 理 器 的 状态 是 必需 的 ， 
因为 异常 不 得 改变 处 理 器 状态 。 

4) 将 CPSR 的 第 7 位 置 为 1， 禁止 中 断 请 求 。 如 果 当 前 异常 是 一 个 快速 中 断 请 求 ， 则 
通过 将 CPSR 的 第 6 位 置 为 1 来 禁止 其 他 FIQ 异常 。 

5) 异常 表 中 的 每 一 项 都 包含 异常 处 理 例 程 中 要 执行 的 第 一 条 指令 。 该 指令 通常 是 一 个 分 
支 操作 (例如 B myaanaler)。 它 会 将 对 应 的 异常 处 理 程序 的 入口 地 址 加 载 到 程序 计数 器 中 。 

表 4-2 定义 了 ARM 处 理 器 异常 所 访问 的 存储 位 置 。 每 个 存储 位 置 包括 对 应 异常 处 理 例 
程 的 第 一 条 指令 ; 当然 ， 这 意味 着 这 


个 表 应 该 位 于 只 读 存 储 器 中 。 表 4-2 异常 向 量 

查看 表 4-2， 就 会 注意 到 其 中 的 向 y Ea 
ROER, RPT A 未 定义 指令 | UND | 0x00000004 
AU Mig Bl De, 在 ARM AEE aep a 0x00000008 


时 ， 该 项 用 于 字 地 址 未 对 齐 异 常 。 后 。 预 取 退 出 (从 存储 器 取 指 令 时 故障 ) 0x0000000C 
来 的 ARM 处 理 器 已 经 可 以 不 调用 异常 ”数据 退出 (从 存储 器 取 数 据 时 故障 ) | Abort | 0x00000010 
处 理 例 程 而 处 理 未 对 齐 的 地 址 了 。 IRQ (普通 中 断 ) 

在 恰当 的 例 程 处 理 完 异常 之 后 ， _EQ (快速 中 断 ) 


> 
3 
a 


0x00000018 
0x0000001C 
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必须 返回 到 异常 发 生 时 的 位 置 (当然 ， 如 果 是 终止 性 异常 ， 就 不 可 能 再 返回 了 )。 

为 了 从 异常 返回 ， 必 须 将 定义 了 异常 前 模式 的 信息 保存 起 来 ( 即 程序 计数 器 和 CPSR ) 。 
不 幸 的 是 ， 从 异常 返回 并 不 像 看 起 来 那样 简单 。 如 果 先 恢复 PC， 那 么 仍然 处 于 异常 处 理 模 
式 下 。 相 反 ， 如 果 先 恢复 处 理 器 状态 ， 那 就 不 再 处 于 异常 处 理 例 程 中 ， 也 就 没有 办 法 恢复 
CPSR 了 。 

不 能 使 用 普通 的 操作 序列 从 异常 中 返回 ， 因 为 它 涉及 操作 模式 的 改变 。ARM 提供 了 两 
种 异常 返回 机 制 : 一 种 适用 于 返回 地 址 已 经 被 保存 在 分 体 的 r14 寄存 器 的 情形 ， 另 一 种 则 适 
用 于 返回 地 址 已 经 入 栈 的 情形 。 而 且 ,， 返回 机 制 与 要 处 理 的 异常 的 类 型 相关 。 

如 果 要 从 返回 地 址 在 链接 寄存 器 中 的 异常 表 4-3 ARM 从 异常 处 理 处 返回 
中 返回 ， 可 以 执行 表 4-3 中 列 出 的 指令 ， 其 中 返回 用 户 模式 的 指令 
Movs 和 sues 都 是 目的 寄存 器 为 PC 时 所 使 用 指 SWI, 未 定义 指令 MOVS pe,r14 
今 的 特殊 版 本 。 当 从 IRQ、FIQ 或 数据 退出 等 ”人 RQ,FIQ SUBS paris #4 
异常 返回 时 ， 必 须 修改 PC 的 值 。 在 前 一 种 情 数据 退出 以 重复 故障 指令 SUBS pc,r14,#8 
JÉ, PC 的 值 应 减 4。 而 在 后 一 种 情形 ，PC 的 值 将 减 8， 以 再 次 执行 故障 指令 。 

如 果 异 常 处 理 例 程 将 返回 地 址 拷贝 到 栈 中 ， 必 须 使 用 一 个 有 些许 不 同 的 机 制 。 在 一 般 情 
况 下 ， 可 以 使 用 下 面 的 指令 从 pe 被 保存 在 栈 中 的 子 程序 中 返回 : 


LDMFD r13!, {r0-r4, pc} 

这 里 ro-r4 为 要 恢复 的 寄存 器 列表 。 如 果 和 希望 在 同一 时 间 将 保存 在 栈 中 的 寄存 器 取出 并 
恢复 CPSR ， 必 须 使 用 该 指令 的 特殊 形式 : 

LDMFD r13!, {r0-r4, pc} ; 恢复 0-z*4， 返 回 并 恢复 CPSR 

寄存 器 列表 之 后 的 ^ 符 号 表明 CPSR 将 在 恢复 程序 寄存 器 的 同时 被 恢复 。 指 令 不 会 在 恢 
复 程 序 计数 器 时 修改 它 的 内 容 。 因 此 ， 必 须 在 PC 人 栈 之 前 对 其 进行 修改 ! 





68K 的 用 户 模式 和 特权 模式 

68K 系列 使 用 一 种 很 有 趣 的 方法 实现 异常 处 理 。 在 加 电 时 硬 复 位 之 后 ，68K 开始 在 
特权 模式 下 进行 处 理 。 该 模式 由 处 理 器 状态 字 的 $ 位 标识 。 而 有 全 ， 它 还 由 处 理 器 某 个 引 
脚 的 信号 电 平 标识 。 外 部 硬件 (存储 器 和 外 设 ) 可 以 检测 出 68K 是 处 于 特权 模式 还 是 用 
户 模 式 。 采 用 这 种 方法 ， 可 以 将 存储 器 限制 为 只 能 由 操作 系统 访问 。 

操作 系统 可 以 通过 清除 S 位 切换 到 用 户 模式 下 。 一 旦 处 于 用 户 态 ， 任 何 异 常 都 可 以 
强制 切换 回 特 权 模 式 。 在 用 户 模式 下 ， 程 序 员 不 能 通过 将 $ 位置 为 1 来 进入 特权 模式 ， 
因为 这 会 导致 异常 并 强制 返回 特权 模式 。 也 许 有 人 会 认为 这 正 是 将 S 位 置 位 时 所 期 望 做 
到 的 。 然 而 ， 如 果 异 常 导 致 操作 系统 的 介入 ， 那 么 操作 系统 将 控制 计算 机 。 

68K 的 一 个 重要 特点 是 它 有 两 个 栈 指针 ，A7 : 一 个 用 于 用 户 模式 ， 另 一 个 用 于 特权 
| 模式 。 如 果 在 用 户 模式 下 发 生 了 错误 导致 系统 戎 溃 ， 任 何 引 起 错误 的 异常 都 会 引起 特权 
| 模式 ， 并 且 它 的 栈 指针 将 被 保存 起 来 以 便 恢复 。 


4.3 MIPS: 另 一 种 RISC 


MIPS 是 由 斯 坦 福 大 学 的 John Hennessy 于 1980 年 设计 的 经 典 RISC 体系 结构 ， 其 目的 
是 利用 RISC 理念 的 优点 设计 一 款 高 效 的 32 位 处 理 器 。Hennessy 在 1984 年 离开 斯 坦 福 ， 建 
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WS MIPS 公司 。 同 Intel IA32 体系 结构 一 样 ，MIPS 也 历经 了 几 代 产品 ， 并 推出 了 64 位 版 
本 。MIPS 非常 重要 ， 因 为 它 已 经 被 广泛 地 用 于 计算 机 体系 结构 教学 。 之 所 以 在 这 里 介绍 它 ， 
是 因为 MIPS 与 ARM 处 理 器 形成 了 有 趣 的 对 比 。MIPS 用 于 大 量 嵌入 式 和 移动 应 用 以 及 一 
些 游戏 系统 (例如 PlayStation”) 中 。 

MIPS 采用 传统 的 32 位 load-store 型 ISA， 带 有 32 个 通用 寄存 器 。 寄 存 器 R0 与 众 不 
同 ， 因 为 它 的 值 总 是 0 且 不 能 修改 。 这 是 MIPS 的 一 个 重要 特征 ， 因 为 它 使 程序 员 很 容易 获 
得 0， 也 提供 了 一 种 将 寄存 器 编码 在 指令 中 的 能 力 。 

1. MIPS 指令 格式 

图 4-11 描述 了 3 种 MIPS 指令 格式 : R- 型 为 寄存 器 - 寄存 器 操作 ; I 型 为 16 位 立即 数 
操作 ; J- 型 为 直接 跳 转 指令 。 还 有 一 种 为 协 处 理 器 操作 的 C- 型 指令 ， 但 不 在 这 里 讨论 。 

31 26 25 21 20 16 15 oo 11 10 6 5 : 
R- 型 E E B 






31 26 25 21 20 16 15 
1 izma mees Ea 












31 26 25 0 


本 型 3 
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图 4-11 MIPS 指令 格式 


最 常见 的 指令 格式 是 R- 型 ， 它 提供 了 寄存 器 -寄存 器 型 数据 处 理 操作 ， 与 ARM 处 理 
器 中 对 应 的 指令 非常 相似 。MIPS 处 理 器 与 ARM 处 理 器 一 个 最 重要 的 不 同 在 于 MIPS 能 使 
用 32 个 寄存 器 中 的 一 个 ， 而 ARM 处 理 器 只 能 使 用 16 个 寄存 器 。aaa r1,r2,r3 是 一 条 典型 
的 R- 型 指令 。 按 照 约 定 ，MIPS 汇编 语言 中 的 指令 都 使 用 小 写 。MIPS 不 支持 ARM 处 理 器 
的 两 种 重要 机 制 : 条 件 执行 ， 以 及 对 第 二 个 操作 数 移 位 的 能 力 。 

I- 型 指令 格式 将 R- 型 指令 的 3 个 字段 合并 在 一 起 得 到 一 个 16 位 的 立即 数字 段 ， 该 字 
段 可 被 用 于 加 立即 数 等 指令 中 的 常数 或 寄存 器 间接 (索引 ) 寻 址 模式 中 的 偏 移 量 。 这 个 16 
位 的 立即 数 可 以 是 有 符号 数 也 可 以 是 无 符号 数 ， 其 范围 分 别 在 -32 768 ~ +32 767 和 10 一 
65 535。 和 ARM 处 理 器 不 同 ，MIPS 的 立即 数 是 不 可 缩放 的 。adai rtl,z2,4 是 一 条 典型 的 
I- 型 指令 ，MIPS 将 i 附加 在 指令 助 记 符 后 表示 立即 数 ， 而 ARM 处 理 器 用 符号 # 作为 立即 数 
的 前 级 。 这 是 汇编 器 语法 的 区 别 而 不 是 处 理 器 ISA 的 。 

因为 MIPS 使 用 16 位 立即 数 ， 载 入 两 个 地 址 连续 的 立即 数 就 可 以 很 容易 地 将 一 个 32 
位 字 送 入 寄存 器 。 载 入 高 16 位 立即 数 指令 ，lui， 将 一 个 16 位 立即 数 送信 寄存 器 的 高 16 
位 并 将 寄存 器 的 低 16 位 清 零 。 例 如 ， 指 令 lui $1,0x1234 将 0x12340000 加 载 到 寄存 器 rl 
中 。 现 在 可 以 用 一 条 带 有 16 位 立即 数 的 逻辑 或 指令 访问 寄存 器 的 低 16 位 。 例 如 ， 指 令 ori 
$1,0xABCD 会 将 rl 置 为 0x1234ABCD。 请 注意 $0~$31 是 MIPS 寄存 器 r0 ~ 131 的 名 称 。 

二 型 指令 格式 为 无 条 件 跳 转 ， 用 一 个 26 位 立即 数 作为 分 支 地 址 偏 移 量 。 因 为 MIPS 指 
令 字 长 32 位 ， 分 支 偏 移 在 使 用 之 前 会 被 左 移 两 位 以 得 到 一 个 28 位 的 字 节 地 址 偏 移 ， 跳 转 范 
HIX 256MB, 

除了 寄存 器 r0 的 值 固 定 为 0 外 ，MIPS 寄存 器 组 是 很 平常 的 ， 不 像 ARM 处 理 器 那样 带 有 
特殊 功能 寄存 器 。 对 于 那些 最 初学 习 过 其 他 汇编 语言 的 人 ， 他 们 一 开始 会 觉得 MIPS 汇编 语 
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言 有 些 奇怪 ， 因 为 MIPS 的 寄存 器 被 写作 $0,$1,… 而 不 是 r0rl,… 表 4-4 列 出 了 MIPS 的 寄存 
器 集 并 给 出 了 另 一 种 由 程序 员 使 用 的 寄存 器 名 称 (完全 类 似 于 ARM 处 理 器 的 过 程 调用 标准 )。 
表 4-4 MIPS 寄存 器 命名 约定 


名 称 


i e 
ao | ss | w | 
2 
: 
a 
5 
© | s | e | 
a 
@ | | so 
@ | s | | 


rl5 $15 $t7 
a m | so 


用 途 
常数 0 
汇编 程序 保留 
表达 式 以 及 函数 的 结 
表达 式 以 及 函数 的 结果 
参数 1 
参数 2 
参数 3 
参数 4 
临时 结果 STA FAN BB) 
临时 结果 KERER ) 
临时 结果 RASA AMR A ) 


临时 结果 RASTA AMR) 


临时 结果 (ESTA ALAR FA ) 
临时 结果 (HASTA ASR M ) 
临时 结果 ( 赃 套 调用 不 保留 ) 
临时 结果 ( 嵌 套 调用 不 保留 ) 
保存 的 临时 结果 ( 峰 套 调用 保留 ) 
保存 的 临时 结果 ( 氮 套 调用 保留 ) 
保存 的 临时 结果 CRSA ER ) 
保存 的 临时 结果 ESTA AE) 
保存 的 临时 结果 (fe EVA GR A 
保存 的 临时 结果 KER) 
保存 的 临时 结果 (和 嵌 套 调用 保留 ) 
保存 的 临时 结果 ( 窜 套 调用 保留 ) 
临时 结果 ( 枯 套 调用 不 保留 ) 
临时 结果 ( 氢 套 调用 不 保留 ) 
操作 系统 内 核 保 留 

操作 系统 内 核 保 留 
指向 全 局 区 的 指针 

栈 指针 

帧 指针 

返回 地 址 (用 于 函数 调用 ) 


MIPS 的 load 和 store 指令 分 别 为 lw (RAF) 和 sw (RAFF). MIPS 的 寻 址 模式 很 少 ， 
仅 提供 了 带 偏 移 量 的 寄存 器 间接 寻 址 模式 。 例 如 ， 指 令 iw $1,16($2) 实现 了 操作 [$1] 一 
[16+[$2]] ， 与 ARM 处 理 器 的 指令 LDR r1, [r2,#16] 完全 相同 。MIPS 缺少 CISC 的 复杂 寻 
址 模式 以 及 ARM 处 理 器 块 移动 指令 。 不 过 ， 如 果 使 用 寄存 器 r0， 直 接 存 储 器 寻 址 也 是 可 以 
的 (因为 它 强 制 使 用 一 个 16 位 的 绝对 地 址 )，MIPS 还 支持 程序 计数 器 相对 寻 址 : 

2. 条 件 分 支 

MIPS 处 理 条 件 分 支 的 方法 与 ARM 处 理 器 完全 不 同 。 请 回忆 一 下 ，ARM 处 理 器 的 分 支 
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依赖 于 处 理 器 条 件 码 中 各 位 的 状态 ， 它 们 由 前 面 的 指令 置 位 或 清 零 。MIPS 则 提供 了 显 式 的 
比较 和 分 支 指令 。 例 如 ， 指 令 beq ri,r2, label 将 比较 寄存 器 rl 和 r2 的 值 并 在 二 者 相等 时 
跳 转 到 label Mb. MIPS 没有 实现 CISC 处 理 器 (以 及 ARM 处 理 器 ) 提供 的 16 种 条 件 分 支 
集合 ， 而 是 仅 实 现 了 以 下 4 条 分 支 指令 

beq $1,$2,label ; 相等 时 跳 转 

bne $1,$2,1abel ; 不 相等 时 跳 转 

blez $1,$2,label ; 小 于 或 等 于 零 时 跳 转 

bgtz $1,$2,label ; 大 于 零 时 跳 转 

按 条 件 置 1 是 一 条 很 有 意思 的 MIPS 指令 。 例 如 ， 小 于 时 置 1 指令 sit $1,$2,$3 先 测 
it [$2] < [$3] 是 否 成 立 ， 如 果 测 试 结果 为 真 ， 则 将 $1 置 为 1， 和 否则 将 $1 置 为 0。 这 条 指令 
将 一 个 布尔 条 件 转换 为 寄存 器 中 的 值 ， 这 个 值 可 用 于 后 面 的 条 件 分 支 或 指令 中 的 一 个 操作 
数 。 第 5 章 介 绍 多 媒体 运算 时 还 会 再 次 接触 这 一 概念 。 关 于 sit 指令 用 法 的 一 个 典型 例子 是 


slt  $1,82,$3 ; if $2<$3 THEN $1 = 1 ELSE $1 = 0 
bne $1,$0,Target ; $1 不 等 于 0 时 跳 转 (也 就 是 说 ，$2<$3 HHH) 


还 有 一 条 指令 sltu， 它 对 无 符号 数 进行 相同 的 操作 ， 而 siti 和 situi 这 两 条 指令 以 立 
即 数 作为 操作 数 。 


4.3.1 MIPS 数据 处 理 指 令 


MIPS 数据 处 理 指令 大 都 与 ARM 处 理 器 的 数据 处 理 指令 很 像 。 二 者 的 一 个 细微 差别 在 
F MIPS 提供 了 显 式 移 位 指令 ， 该 指令 要 么 使 用 一 个 立即 数 移 位 字段 进行 固定 长 度 移 位 ， 要 
么 使 用 一 个 寄存 器 移 位 字段 进行 动态 移 位 。 例 如 : 

sll $1,$2,4 ; 将 $2 逻辑 左 移 4 位 ， 结 果 保 存在 $1 中 

sllv $1,$2,$3 ; 将 $2 逻辑 左 移 $3 中 的 位 数 ， 结 果 保 存在 $1 中 

请 注意 ， 静 态 移 位 和 动态 移 位 需要 使 用 不 同 的 指令 。 这 是 汇编 器 的 特点 而 不 是 指令 系 
统 的 。 

K 4-5 描述 了 MIPS 的 数据 处 理 指 令 。 布 尔 运算 指令 and, or, not 和 xor 都 是 传统 指令 ， 
MIPS 还 实现 了 不 太 常 见 的 nor 指令 。 加 法 和 减法 指令 也 是 传统 指令 ， 但 无 符号 加 法 和 减法 
指令 却 不 多 见 ( 二 者 的 区 别 仅 在 于 运算 溢出 时 溢出 标志 :不 会 被 置 1 )。MIPS 指令 aaa 会 在 运 
算 溢出 时 产生 一 个 异常 或 软 中 断 ( 即 一 次 操作 系统 调用 )。 由 于 这 个 原因 ,许多 人 喜欢 使 用 
addu 指令 。MIPS 没有 提供 与 前 一 条 指令 的 进位 位 相 加 的 显 式 扩展 加 法 运算 。 为 了 完成 扩展 
的 算术 运算 ， 必 须 将 进位 位 从 低位 加 法 中 分 离 出 来 ， 并 使 其 参与 高 一 位 的 加 法 。 例 如 : 


adau $1,$3,$5 ; $2,$1 = $4,$3 + $2,$1 中 较 低 的 两 个 字 相 加 
situ $2,91, $5 ž 获得 进位 输入 位 

addu $2,$2,$4 ; 与 第 一 个 较 高 的 字 $4 相 加 

addu $2,$2,$6 ; 与 第 二 个 较 高 的 字 $6 相 加 


situ 是 这 段 代 码 的 关键 ， 它 表示 无 符号 数 小 于 时 置 1， 它 比较 $1 < $5， 如 果 比 较 结果 
为 真 则 将 $1 置 为 1。 这 段 代 码 中 的 测试 是 将 两 个 较 低 字 的 和 与 其 中 一 个 字 比 较 。 如 果 和 小 
于 其 中 一 个 字 ， 那 么 一 定 产生 了 一 个 进位 ， 并 在 较 高 的 两 个 字 相 加 之 前 将 $2 的 值 置 为 1 ( 较 
高 的 两 个 字 的 和 )。 如 果 这 看 起 来 有 些 令 人 糊涂 ， 请 考虑 两 个 十 进 制 数 的 例子 。 假 设 要 进行 
操作 3+4。 和 为 7 并 且 7>4( 没 有 进位 )。 现 在 ， 如 果 要 进行 操作 8+4， 将 得 到 2 并 且 2<4 (有 
进位 )。 
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表 4-5 MIPS 的 数据 处 理 操作 


addu 无 符号 加 法 















完成 加 法 操作 ， 
时 溢出 标志 不 置 1 


只 不 过 洲 出 













完成 减法 操作 ， 
时 溢出 标志 不 惫 1 


FAR edit 














TA AR: © Cengage Learning 2014. 


将 立即 数 作为 第 二 操作 数 的 数据 处 理 指 令 有 addi, addiu, ori, slti, sltui 和 xori, 

MIPS 提供 了 有 符号 数 和 无 符号 数 乘法 ， 将 生成 32 位 数 乘 32 位 数 的 积 ， 一 个 64 位 的 
结果 。MIPS 实现 乘法 (和 除法 ) 的 方法 不 太 常 见 。 其 他 处 理 器 一 般 会 将 源 和 目的 寄存 器 作 
为 指令 的 一 部 分 。 一 个 完整 的 32 位 乘法 需要 4 个 寄存 器 : 2 个 用 于 源 操作 数 ，2 个 用 于 64 
位 积 的 高 字 和 低 字 。MIPS 则 采用 了 一 种 不 同 的 方法 ， 用 两 个 专用 寄存 器 hi 和 1o 分 别 保存 
结果 的 两 个 部 分 。 当 然 ， 这 种 方法 需要 使 用 专门 的 指令 来 访问 这 两 个 专用 寄存 器 : 


mfhi 从 hi 移出 mfhi $1 将 字 的 高 半 部 分 移入 $1 

mflo 从 lo 移出 mflo $1 将 字 的 低 半 部 分 移 人 人 $1 

mthi BA hi mthi $1 将 字 的 高 半 部 分 从 $1 BA hi 

mtlo BA lo mtlo $1 将 字 的 低 半 部 分 从 $1 BA lo 
伪 指 令 





n ARM 一 样 ，MIPS 汇编 器 也 支持 伪 指 令 ， 它 们 实际 上 是 一 些 重 命名 了 的 操作 。 例 


如 ， 伪 指令 11 $1,0x1234 被 转换 为 实际 的 MIPS 指令 addi $1,$0,0x1234。 这 样 转换 之 
所 以 可 以 是 因为 $0 总 是 0， 因 为 $0 加 0x1234 并 将 结果 放 入 91 等 价 于 将 0x1234 移入 
$1。 同 样 ， 伪 指令 move $1,$2 将 被 转换 为 add $1,$0,$2, 





1. 流 控 制 

MIPS 提供 了 一 条 跳 转 并 链接 指令 jal $1,Target， 这 里 Target 是 一 个 16 位 有 符号 分 
支 偏 移 。 该 分 支 将 跳 转 到 Target 处 ， 返 回 地 址 被 保存 在 寄存 器 $1 中 。 与 ARM Ase], MIPS 
没有 专门 的 链接 寄存 器 ， 而 且 它 也 不 可 能 直接 访问 程序 计数 器 。 因 此 ， 必 须 通过 过 程 指令 
(寄存 器 跳 转 ) jr $1 来 实现 返回 ,该 指令 将 $1 加 载 到 PC 中 以 完成 返回 。 

2. MIPS 代码 实例 

下 面 是 一 个 简单 的 MIPS 代码 实例 ， 实 现 了 一 个 简单 的 向 量 操作 Yas X, AP YAX 
为 8 元 素 向 量 ，s 为 标量 ， 且 s=8。 

int i; 

int X[8], Y{[8]; 

for (i = 0; i < 8; i = i++){ 

Y{i] = Zi * 8;} 
lui $1, upperx ; 将 存储 单元 X 的 地 址 的 高 16 位 送 入 $1 
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ori = $1,$1,lowerX ; 现在 传送 X 地 址 的 低 16 位 


addi $3,$0,#8 ; $3 是 循环 计数 器 
Loop: lw $4,0($1) ; BR: 获得 xi 
sll $4,$4,3 ; xi kk 3 fi, #8 
sw $4, 32($1) ; Y[i] = X[i] * 8 (Y 相 对 X 的 偏 移 为 8X4=32 FË ) 
addi $1,$1,4 ; 指针 递增 ， 指 向 下 一 个 元 素 
subi $3,$3,1 ; 循环 计数 器 递减 
bne $3,$0,Loop ; 直到 全 部 完成 
这 段 MIPS 代码 与 下 面 的 ARM 代码 差别 不 大 。 
adr r1,X ; 将 地 址 为 X 的 存储 单元 的 值 加 载 到 ri 
mov  r2,#8 ; 设置 循环 计数 器 
Loop ldr rl, [r0] ,#4] ; 重复 : 获得 xi 
mov rl,rl, LSL #3; xi 左 移 3 位 , #8 
str ri,l[r0,#28] ; Y[i] = X[i] * 8 (注意 偏 移 是 28 而 不 是 32 字 ) 
subs r2,r2,#1 ; 循环 计数 器 说 减 
bne Loop ; 直到 全 部 完成 


可 以 使 用 自动 变 址 (自动 索引 ) 寻 址 来 压缩 ARM 代码 。 

3. 其 他 load 和 store 指令 

MIPS 提供 了 几 个 load 和 store 指令 ， 可 以 把 8 位 字 节 或 16 位 半 字 数据 载 人 寄存 器 或 写 
和 人 存储器; BD 


lb 载 入 字 节 lb $1,12($2) [$1] < [12 + [$2]] 符号 扩展 为 32 位 
lbu 载 入 无 符号 字 节 lbu $1,12($2) [$1] <- [12 + [$2]] 零 扩展 为 32 位 


lh 载 入 半 字 lh $1,12($2) [$1] + [12 + [$2]] 符号 扩展 为 32 位 
lhu 载 入 半 字 lhu $1,12($2) [$1] + [12 + [$2]] 零 扩展 为 32 位 

sb 保存 字 节 sb $4,64($6) [64 + [$6]] <— [$4] 将 字 节 写 入 存储 器 
sh ”保存 半 字 sh $4,64($6) [64 + [$6]] <- [$4] 将 半 字 写 入 存储 器 


4. MIPS 和 ARM 处 理 器 

也 许 有 读者 会 问 , “ MIPS 处 理 器 与 ARM 处 理 器 ， 哪 个 更 好 ?” 由 于 以 下 一 些 原 因 ， 这 
一 问题 并 不 容易 回答 。MIPS 和 ARM 处 理 器 都 提供 了 几 个 不 同 的 版 本 ， 它 们 采用 不 同 的 体 
系 结构 并 使 用 不 同 的 工作 频率 。MIPS 带 有 更 多 的 内 部 寄存 器 ， 可 以 大 幅度 减少 访 存 ， 特 别 
是 对 于 算术 运算 。ARM 处 理 器 支持 条 件 执行 ， 能 更 容易 地 编写 紧 致 的 代码 。 对 使 用 ARM 
处 理 器 的 程序 员 来 说 ， 数 组 的 处 理 更 加 容易 ， 因 为 ARM 提供 了 大 量 寻 址 和 自动 变 址 模式 。 
另 一 方面 ，MIPS 在 立即 数 操作 中 提供 了 真正 的 16 位 常数 。2011 年 ，ARM 处 理 器 的 销量 更 
高 ， 有 些 游 戏 处 理 器 已 经 开始 用 ARM 处 理 器 代替 MIPS. 


4.4 数据 处 理 与 数据 传送 


本 节 将 讨论 数据 传送 操作 的 一 些 特征 ， 从 数据 元 素 的 压缩 与 移 位 ， 到 位 组 的 处 理 ， 到 检 
测 数据 元 素 是 否 在 正确 的 范围 内 。 我 们 将 使 用 ARM 之 外 的 处 理 器 。 本 节 的 要 点 并 不 是 讲授 
新 的 ISA， 而 是 说 明 计算 机 设计 方法 的 变化 。 

数据 传送 是 最 常用 的 计算 机 操作 ， 该 操作 将 数据 从 一 个 位 置 复制 到 另 一 个 位 置 。 正 如 读 
者 已 经 看 到 的 那样 ， 计 算 机 提供 了 load/store 操作 以 及 寄存 器 -寄存 器 数据 传送 。 有 了 时， 计 
算 机 要 做 的 不 仅仅 是 将 数据 从 一 个 位 置 传送 到 另外 一 个 位 置 。 你 也 许 希 望 在 传送 一 个 32 位 
字 时 改变 其 中 字 节 的 位 置 ， 或 者 需要 将 数据 从 地 址 连续 的 存储 单元 传送 到 连续 的 偶 地 址 或 奇 
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地 址 存储 单元 (存储 映射 的 外 设 所 需要 的 )。 因 此 ， 读 者 将 看 到 一 些 能 够 传送 和 压缩 数据 的 

请 考虑 端 格式 问题 。 某 个 系统 可 能 将 4 个 字 节 {A,B,C, AID} 表示 为 ABCD ， 而 另 一 个 
系统 可 能 将 同样 的 数据 表示 为 DCBA。Intel 的 IA32 处 理 器 提供 了 一 条 aswaP reg32 指令 完 
成 大 端 格式 到 小 端 格 式 的 转换 ， 能 够 将 32 位 二 进 制 串 [31…24, 23…16, 15…8, 7…0] 转换 为 
[7…0, 15…8, 23…16, 31…24]; 即 字 节 序 列 ABCD 变 为 DCBA。 

还 可 以 实现 一 条 能 够 以 任意 顺序 重组 32 位 数 中 4 个 字 节 的 指令 。 假 设 它们 的 初始 顺序 
为 4321。 这 条 假想 的 指令 PERM 1234,R0 将 完成 端 格式 转换 ， 因 为 这 些 字 节 将 按照 相反 的 顺 
序 写 回 。 同 样 ， 指 令 PERM 1324,Ro 会 交换 最 外 面 两 个 字 节 ， 而 指令 PERM 2233,Ro 则 会 交换 
最 内 的 两 个 字 节 ， 并 将 它们 复制 到 最 外 面 两 个 字 节 。 将 在 第 5 章 讨 论 的 一 些 多 媒体 扩展 指令 
确实 能 支持 这 种 类 型 的 字 节 操作 或 混 洗 (shuffling)。 

图 4-12 描述 了 1A32 的 数据 移动 指令 xlat 








(翻译 )， 它 没有 任何 参数 ， 因 为 它 使 用 了 两 个 = . 
特定 的 寄存 器 : 8 位 寄存 器 al 和 16 位 基 址 寄 ae 2 
存 器 bx。 如 图 4-12 所 示 ， 基 址 寄存 器 bx 指向 al E 
一 块 存储 区 而 寄存 器 al 中 是 一 个 8 位 的 偏 移 中 $ 

a) xlat 指令 执行 前 b) xlat 指令 执行 后 @ 


量 。 当 执行 xlat 指令 时 ，al 与 bx 相 加 得 到 有 
效 地 址 (al 被 用 作 偏 移 量 )。 该 有 效 地 址 处 的 8 图 4 12 xlat 指令 的 作用 

位 操作 数 将 被 载 人 al。 换 名 话说， 利用 偏 移 量 来 查找 表 中 位 于 该 偏 移 处 的 数据 元 素 ， 然 后 用 
该 元 素 的 值 蔡 换 偏 移 量 。 下 面 的 代码 说 明了 如 何 使 用 xlat 指令 。 第 三 条 指令 引用 了 ds， 它 
是 指 问 LA 段 式 存储 系统 中 数据 段 的 寄存 器 。 


mov al,4 ; 将 索引 加 载 到 al 
lea bx,table ; 设置 表 的 基地 址 
xlat ; 将 地 址 为 ds+bx+al 的 字 节 送 入 al 


xlat 仅 能 处 理 含有 最 多 256 个 字 节 值 的 表格 。 例 如 ， 可 用 该 指令 将 一 种 代码 转换 为 另 
外 一 种 。 如 果 bx 中 含有 代码 转换 表 的 地 址 而 al 含有 要 查找 的 代码 ,简单 地 执行 xlat 就 可 
以 完成 代码 转换 。 


数据 传送 一 一 概述 

数据 移动 或 拷贝 指令 是 所 有 计算 机 操作 中 最 重要 的 ， 因 为 它 是 执行 最 频繁 的 指令 类 
型 。 也 可 以 按照 它们 所 传送 的 数据 的 大 小 以 及 操作 数 的 源 和 目的 将 传送 指令 分 类 (例如 
8、16 或 32 位 )。 有 些 处 理 器 使 用 特定 的 助 记 符 显 式 地 指定 传送 数据 的 大 小 (例如 STW= 
存储 字 节 )。 另 外 一 些 则 通过 扩展 或 后 缀 指明 传送 数据 的 大 小 (例如 MoVE.B= 传送 字 节 ， 
MOVE.W= 传送 字 )。 有 时 还 可 以 通过 源 或 目的 操作 数 隐 式 地 指明 传送 数据 的 大 小 (例如 
LDA= 将 8 位 数 加 载 到 累加 器 中 ，LDx= 将 16 位 数 加 载 到 寄存 器 义 中 )。 

下 图 描述 了 传送 指令 的 一 些 变 化 ， 图 a 和 图 b 从 寄存 器 与 存储 器 之 间 最 基本 的 数据 
传输 开始 。 指 令 中 的 源 和 目的 操作 数 可 以 是 一 个 内 部 寄存 器 ， 也 可 以 是 一 个 存储 单元 。 
所 有 处 理 器 都 支持 寄存 器 -存储 器 、 存 储 器 一 寄存 器 以 及 寄存 器 -寄存 器 数据 传送 。 个 
别 微 处 理 器 支持 直接 的 存储 器 - 存储 器 数据 传送 。 

有 些 处 理 器 实现 了 能 够 交换 两 个 寄存 器 内 容 的 指令 。 例 如 ，ExXG x,s 将 寄存 器 又 复 

















| 
| 
| 
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制 到 栈 指针 中 ， 乒 指针 复制 到 X 中 。 有 些 处 理 器 则 实现 了 能 够 处 理 单个 寄存 器 中 两 个 字 
段 的 指令 。 一 个 字段 的 内 容 与 另 一 个 字段 的 内 容 互 换 。 例 如 ， 指 令 swar X 交换 寄存 器 的 
前 半 部 分 和 后 半 部 分 。 图 d 描 述 了 交换 寄存 器 对 的 内 容 的 指令 ， 图 e 描述 了 交换 寄存 器 


| 中 两 个 部 分 的 指令 。 当 然 ， 也 可 以 设计 一 条 以 任意 顺序 混 洗 寄存 器 中 字 节 的 指令 ， 如 图 





f 所 示 。 





a) 从 存储 器 送 往 寄 存 器 b) 从 寄存 器 送 往 存储 器 c) 从 寄存 器 送 往 寄存 器 
交换 前 交换 后 2 
Ro Ri 交换 前 交换 后 交换 前 shi E 
a CS | | 
d) 交换 寄存 器 对 e) 半 个 值 交换 f) 任意 混 洗 ə 


请 注意 ， 所 有 计算 机 文献 都 使 用 一 致 的 术语 一 一 互 撞 ( swap)、 交 换 (exchange) 和 


| 传送 (transfer)， 这 些 术 语 在 某 种 程度 上 是 可 互 换 的 。 我 们 按照 下 面 的 方法 对 传送 操作 进 


行 总 结 。 
类 型 传送 的 数据 
数据 传送 寄存 器 一 寄存 器 
数据 传送 寄存 器 一 存储 器 
数据 传送 存储 器 一 寄存 器 
数据 传送 存储 器 一 存储 器 
数据 交换 寄存器 4 一 寄存 器 8; 寄存 器 s> FAB, 
KHIR CTT S S T ERE T E E F T 5 


有 些 指令 会 在 传送 时 对 数据 进行 处 理 。 当 一 个 二 进 制 补 码 数 从 mn 位 扩展 到 nn 位 时 ， 
这 里 n>m， 符 号 位 将 被 复制 到 新 的 位 中 。 例如，8 位 二 进 制 数 10001100 可 用 16 位 表示 
为 1111111110001100。 有 些 计算 机 ， 比 如 IA32， 带 有 专门 的 符号 扩展 移 位 指令 ，MovVSX， 
可 将 源 操作 数 复制 到 寄存 器 中 ， 并 将 8 位 数 扩展 为 16/32 位 或 将 16 位 数 扩 展 为 32 位 。 

下 面 的 图 a 描述 了 一 条 目的 操作 数 比 源 操作 数 宽 的 传送 指令 ， 目 的 操作 数 高 位 补 0 ; 
而 在 图 b 中 ， 源 数据 被 送 往 目 的 操作 数 ， 高 位 补 符号 位 。 

图 < 描述 了 一 条 压缩 指令 ， 它 分 别 取出 两 个 寄存 器 的 最 低 字 节 ， 并 将 它们 压缩 到 
第 三 个 寄存 器 中 。 图 d 档 述 了 一 条 通用 的 数据 移动 指令 ， 在 字 的 内 部 移动 寄存 器 的 一 
个 字段 。 由 于 这 种 形式 的 数据 移动 非常 重要 ， 后 面 介 绍 移 位 操作 时 还 会 再 次 介绍 这 一 
内 容 。 

图 6 描述 一 种 形式 相当 奇特 的 数据 传送 操作 。 连 续 4 个 字 存 储 单元 中 的 4 个 字 节 分 
别 被 送 往 寄存 器 中 的 4 个 字 节 (或 从 寄存 器 送 往 存 储 单元 )。 当 连续 的 奇 或 偶 字 节 地 址 被 
赋 给 输入 或 给 出 设备 并 且 它 必须 从 这 些 地 址 顺序 地 传送 字 节 时 ， 微 处 理 器 会 使 用 这 一 看 
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这 些 指令 反映 了 经 典 CISC 设计 方法 的 优势 与 弱点 。 一 条 xlat 指令 可 以 完成 通常 需要 
两 个 操作 数 的 操作 (即将 索引 与 基 址 寄存 器 相 加 并 完成 寄存 右 间 接 传 送 )。xlat 是 一 条 紧凑 
的 指令 ， 因 为 它 不 需要 任何 操作 数 (寄存 器 bx 和 al 的 使 用 是 隐 式 的 )。 男 一 方面 ，xlat 也 
反映 了 CISC 方法 的 弱点 。 它 只 能 用 于 某 一 特定 的 应 用 ,一 点 不 灵活 (操作 数 大 小 固定 ， 只 
能 使 用 al 和 bx 寄存 器 )。 


4.4.1 不 可 见 的 交换 指令 


现在 来 看 看 操作 系统 在 一 种 非常 特殊 的 应 用 一 一 进程 同步 中 ， 所 需要 的 一 类 指令 。 有 些 
CISC 和 RISC 都 支持 的 指令 初 看 起 来 相当 奇怪 。 例 如 ，IA32 处 理 器 提供 了 使 用 3 个 操作 数 
(一 个 隐 含 的 和 两 个 显 式 的 ) 的 比较 和 交换 指令 cmpxchg。 它 的 格式 为 cmpxchg reg,reg 或 
cmpxchg mem,reg， 操 作 数 可 以 是 8 位 、16 位 或 32 位 操作 数 。 该 指令 将 累加 寄存 器 al. ax 
或 eax 中 的 值 与 第 一 个 操作 数 相 比较 ， 如 果 相 等 则 将 零 标 志 置 1， 并 将 第 二 个 操作 数 复制 到 
第 一 个 。 如 果 累 加 寄存 器 与 第 一 个 操作 数 不 相 等 ，cmpxchg 指令 将 第 一 个 操作 数 复制 到 累加 
寄存 器 中 。 指 令 cmpxchg bx, cx 的 作用 可 描述 为 


IF [ax] = [bx] THEN [z] + 1, [bx] = [cx] 
ELSE [z] < 0, [ax] = [bx] 


| 信号 量 

| 信号 量 (semaphore) 是 一 个 用 来 为 进程 (process) 提供 信号 的 标志 ， 当 两 个 进程 竞 
| 争 某 个 资源 时 并 且 两 个 进程 几乎 同时 查询 资源 是 否 空闲 。 假 设 进程 A 和 进程 BB 询问 资 
| 源 Q 是 否 空闲 (资源 可 能 是 磁盘 驱动 器 )。 假 设 当 前 资源 是 空闲 的 。 进 程 A 发 现 资源 是 
| 空闲 的 ， 进 程 B 也 会 发 现 资源 是 空闲 的 。 如 果 进程 A 和 进程 B 都 宣布 自己 使 用 该 资源 ， 
| ABZ, BT HEAR AE SE 

信号 量 可 以 解决 这 个 问题 。 当 进程 查询 资源 是 否 空闲 时 ， 信 号 量 将 被 锁 住 并 且 在 进 
| 程 A 释放 信号 量 之 前 不 能 被 访问 。 信 号 量 对 于 数据 库 非 常 重要 ， 可 以 避免 两 个 进程 同时 
| 访问 同一 个 数据 项 。 





ee 


可 以 用 基本 指令 实现 cmpxchg， 但 基本 指令 序列 有 可 能 在 完成 前 被 中 断 。cmpxchg 指令 用 于 
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两 个 进程 可 能 同时 请 求 同 一 个 资源 的 多 任务 或 多 进程 环境 中 。 如 果 没 有 不 可 见 的 或 原子 的 指 
令 ， 每 个 进程 都 可 以 读 出 资源 状态 ， 发 现 资源 是 空闲 的 ， 并 且 宣 布 自 己 获得 了 该 资源 。 如 果 
是 这 样 ， 那 么 资源 就 被 重复 使 用 了 。cmpxchg 那样 的 不 可 见 指令 会 首先 进行 一 次 测试 (这 个 
例子 里 是 比较 累加 寄存 器 和 第 一 个 操作 数 ) 然后 立即 根据 测试 结果 完成 两 个 可 能 操作 中 的 一 
个 。 从 测试 开始 到 接 下 来 的 操作 完成 之 间 不 会 被 其 他 进程 或 处 理 器 所 于 扰 。 

68K 系列 处 理 器 提供 了 格式 为 ras <ea> 的 测试 并 置 值 指令 ， 这 里 <ea> 为 存储 器 操作 数 
的 地 址 。 该 指令 测试 指定 地 址 处 的 字 节 值 ， 并 根据 测试 结果 设置 条 件 寄存 器 中 的 负 和 和 零 标 
志 。 洲 出 和 进位 标志 将 被 清 0。 操 作 数 的 最 高 位 一 一 第 7 位 ， 将 被 置 为 1。 指令 TAS <ea> 的 
RTL 定义 为 : 

IF [ea] = 0 THEN Z <1 


IF [ea(7)] = 1 THENN <1 
fea(7)] = 1 


这 些 操作 都 是 不 可 见 的 ， 并且 CPU 会 执行 一 个 读 一 修改 一 写 周 期 ,该 周期 将 在 一 个 操 
作 中 从 存储 器 读 出 一 个 操作 数 、 进 行 修改 、 并 将 结果 写 回 存储 器 。 第 一 个 测试 决定 了 信号 量 
标志 的 状态 。 如 果 与 标志 相关 的 资源 是 空闲 的 ， 标 志 位 将 被 置 为 1， 并 且 进 程 在 其 他 设备 、 
处 理 器 或 进程 之 前 获得 该 资源 的 使 用 权 。 

ARM 处 理 器 提供 了 一 条 不 可 见 的 交换 指令 ，swP， 交 换 寄存 器 和 存储 器 中 的 字数 据 。 
例如 ， 


ADR ri,flag ; vl 指向 flag (信和 号 ) 

MOV r0,#1 ; royn 

SWI ro,rū, lri] ; 完成 交换 

CMP  r0,#0 ; 测试 结果 (检测 存储 器 是 否 加 锁 ) 


当 ARM 处 理 器 执行 交换 指令 时 ， 它 还 会 检测 一 个 叫 作 LOCK 的 硬件 信和 号， 判断 数据 传 
送 事 务 是 否 可 被 中 断 〈68K 的 ras 指令 也 是 如 此 ， 读 和 写 周期 仍然 会 检测 地 址 选 通信 号 ， 而 
不 是 在 连续 的 读 和 写 周 期 中 将 地 址 选 通信 号 设置 为 无 效 )。 


44.2 双 精 度 移 位 


污 者 已 经 看 到 ， 移 位 操作 会 将 一 个 寄存 器 中 的 所 有 位 向 左 或 向 右 移动 ; 因此 ， 能 够 进行 
的 最 大 移 位 位 数 等 于 寄存 器 的 长 度 。 有 时 必须 对 大 量 的 位 进行 移 位 操作 〈 例 如， 当 进 行 扩展 
精度 算术 运算 时 )。 有 些 处 理 器 提供 了 进位 位 也 参与 移 位 的 扩展 移 位 指令 ， 可 以 实现 多 精度 
移 位 ， 从 一 个 寄存 器 中 移 除 的 位 先 被 送 入 进位 位 ， 然 后 被 移 人 参与 运算 的 第 二 个 寄存 器 中 。 
IA32 提供 了 两 个 双 精 度 移 位 指令 shia 和 shra ( 双 精 度 左 移 和 双 精 度 右 移 ) 能 够 将 两 个 操作 
数 同 时 移 位 。 左 移 指令 的 形式 为 : 

shld operandl,operand2, immediate ; “immediate” 定 义 了 移 位 位 数 

shld operand1, operand2,cl ; 寄存 器 cl 允许 动态 移 位 


operand2 必须 是 16 或 32 位 寄存 器 。operandl 可 以 是 寄存 器 或 存储 单元 。 移 位 位 数 可 
以 是 立即 数 ， 也 可 以 是 cl 寄存 器 中 的 动态 值 。shla 指令 对 operand2 进行 一 次 临时 的 内 部 
拷贝 ， 然 后 将 operand1 左 移 一 定 的 位 数 。operand2 的 临时 拷贝 也 是 左 移 ， 移 出 的 位 被 送信 
operand! ; 即 为 了 进行 移 位 ，operand2 和 operand! 被 视 作 一 个 整体 。 尽 管 operand2 的 临时 
拷贝 也 参与 到 移 位 中 ， 但 operand2 的 值 不 受 该 操作 的 影响 。 因 此 ， 指 令 shla ax,P,8 将 寄存 
器 ax 的 值 左 移 8 位 ， 并 将 P 的 高 8 位 复制 到 ax 的 低 8 位。 图 4-13 描述 了 指令 shld ax,P,8 
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的 作用 。 


目的 操作 数 ax 源 操作 数 P 
31 24 
P 
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执行 后 


图 4-13 使 用 shia 指令 
可 利用 双 精 度 移 位 指令 将 几 个 源 数据 中 的 数据 压缩 到 一 个 寄存 器 中 。 假 设 要 将 存储 单元 
P 中 的 5 位 、Q 中 的 7 位 以 及 R 中 的 4 位 压缩 到 寄存 器 bx 中 。 这 些 位 将 以 POR 的 顺序 压缩 ， 
这 里 了 为 最 高 5 位 。 则 可 以 使 用 下 面 的 代码 : 
mov ax,P ; KPA ZpS 


shld bx,ax,5 ; 将 最 高 5 位 从 ax 复制 到 bx 
mov ax,Q ; HQOBARMS 
shld bx,ax,7 ; 将 中 间 7 位 从 ax 复制 到 bx 
mOV ax,R ; SREAZ ME 
shld bx,ax,4 ; 将 最 低 4 位 从 ax 复制 到 bx 


图 4-14 描述 了 这 些 指令 的 作用 。 正 如 读者 所 看 到 xxx xxx fx xx [xx xx xxx 
的 ， 在 上 面 的 代码 段 中 ， 必 须 3 次 将 数据 载 人 ax 寄存 a) 初始 化 ax 的 值 





fit o 
x x ]x ffx xx] x] x] P P P P 
4.4.3 压缩 和 解压 缩 指令 b) 执行 指令 shld bx,ax,5 后 ax 
的 值 


数据 压缩 和 解压 缩 意味 着 将 多 个 数据 元 素 送 和 一 个 Fp EEE 
寄存 器 或 存储 单元 (压缩 )， 或 者 将 一 个 数据 元 素 送 入 多 COS IES 


个 寄存 器 或 存储 单元 。 下 面 来 看 一 个 来 自 68K ISA 的 例 ”的 什 
F, CKHT pack 和 unex 指令 。 这 两 条 指令 都 会 对 16 REEERE ||| 
位 或 32 位 寄存 器 的 低位 数据 进行 处 理 。 图 4-15 描述 了 dD 执行 指令 shla bx,ax,4 后 ax 
指令 PACK DO,D1,#literal 的 行为 。 如 图 所 示 ，Pacx 指 的 值 
令 取出 寄存 器 DO (在 本 例 中 值 为 3432, ) 的 4 个 4 位 的 图 4-14 使 用 shle 压缩 数据 
值 ， 并 将 其 转换 为 两 个 4 位 的 值 (本 例 中 为 4216 )。 设 计 这 一 指令 的 目的 是 使 非 压缩 ASCH 
码 与 压缩 BCD 数 之 间 的 转换 更 加 方便 。 在 这 个 例子 里 ， 从 键盘 输入 了 两 个 ASCII 码 字符 4 
和 2， 它 们 对 应 的 代码 分 别 为 34s 和 32i6， 被 转换 为 等 价 的 BCD 数 42,o。 请 注意 ， 上 述 转 
换 过 程 将 4 位 立即 数 加 到 每 一 个 4 位 的 源 操作 数 上 。 本 例 所 用 的 4 位 立即 数 都 是 0。 

图 4-16 描述 了 Pack 指令 的 道 操作 一 一 NPKk， 取 出 一 个 字 最 低 字 节 中 的 两 个 十 六 进 
制 数 并 将 它们 转换 为 两 个 8 位 的 值 。 在 这 个 例子 里 ， 这 两 个 十 六 进 制 数 被 送 入 两 个 连续 
的 字 节 ， 并 与 一 个 常数 相 加 。 要 将 BCD 数 转换 为 ASCI 字符 代码 ， 需 要 执行 指令 UNPK 
D0,D1,#$3030， 因 为 加 上 30,, 就 可 以 将 BCD 数 转换 为 对 应 的 ASCI 码 。 

PACK 和 unek 指令 设计 巧妙 ， 节 约 了 在 BCD 数 和 ASCII 值 之 间 进 行 转换 的 部 分 开销 。 
然而 ， 这 些 指令 并 没有 什么 重大 的 价值 ， 而 且 很 难看 出 为 什么 硅 片 厂商 曾经 在 指令 实现 上 花 
费 了 大 量 精力 。 不 过 它们 却 能 反映 出 20 世纪 70 年 代 计 算 机 设计 者 的 一 些 心 态 。 
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31 1615 1211 87 43 0 
DO 


D0 含有 非 压缩 的 源 数 据 


最 初 的 非 压缩 数据 
(BI ASCH 字符 4 和 2) 


15412114 874 43 + 0 
指令 中 有 一 个 16 位 立即 数 ES E 4 4 HR 






立即 值 


压缩 后 的 结果 


© Cengage Leaming 2014 


DI 是 含有 压缩 数据 的 目的 寄存 器 


图 415 BacK 指 令 


31 15 1211 87 43 0 





bore f rok i EE 


© Cengage Learning 2014 


解压 缩 的 结果 


图 4-16 UNPK 指令 


4.4.4 边界 测试 


下 面 来 看 一 条 通过 检测 一 个 值 是 否 在 预定 的 范围 内 而 完成 很 有 用 的 功能 的 指令 。 当 处 理 
数组 和 表格 等 数据 结构 时 ， 需 要 知道 正在 访问 的 元 素 是 否 落 在 数组 内 。 如 果 运行 时 对 元 素 过 
引 (位 置 ) 的 计算 不 正确 ， 则 会 发 生 数 组 访问 错误 。 有 时 恶意 软件 的 作者 会 故意 利用 数组 错 
误 向 程序 中 注入 恶意 代码 。 如 果 数 组 元 素 的 值 计算 错误 并 且 访 问 了 数组 外 的 数据 值 ， 就 会 引 
起 错误 。 有 些 高 级 语言 会 检测 正在 访问 的 数组 下 标 是 否 在 正确 的 范围 内 (C 语言 没有 提供 这 
样 的 测试 )。68020 实现 了 边界 检测 操作 一 一 CHK2， 确 定 元 素 下 标 是 否 在 正确 的 范围 内 。 如 
果 检 测 到 其 处 于 边界 之 外 ， 则 将 使 用 操作 系统 功能 调用 进行 处 理 ， 即 引发 一 次 自 陷 或 异常 。 

通常 ,为 了 确定 地 址 是 否 在 范围 内 ， 要 使 用 两 个 测试 和 两 个 条 件 分 支 操作 来 比较 数组 下 
标 与 它 的 地 址 上 限 和 下 限 。 用 一 条 68020 的 cuk 指令 就 可 以 完成 同样 功能 ， 如 下 所 示 : 

LEA Array, A0 ; 地 址 寄存 器 AO 为 数组 的 基地 址 


ADDA D0,AO ; 将 Do 中 的 元 类 索引 与 基地 址 相 加 
* : REA 指向 要 访问 的 元 素 
CHK2.L Bounds,A0 ; 对 指针 A0 MEAT RRS 
MOVE (A0) ,D1 ; 读 出 要 访问 的 数据 
Bounds DC.L Lower ; 保存 存储 地 址 下 限 
DC.L Upper ; 接着 是 地 址 上 限 


这 里 仅 需 一 条 指令 即 可 完成 上 限 和 下 限 检 测 。 指 令 cHK2.L Bounds, ao 先 将 AO 的 值 与 存 
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储 单元 Bounds 中 的 地 址 下 限 比 较 ， 再 将 A0 中 的 值 与 存储 单元 Bounas+4 中 的 地 址 上 限 比 较 。 
这 里 地 址 边界 都 是 32 位 4 字 节 的 值 。 如 果 AO 中 的 值 在 范围 内 ， 则 什么 也 不 做 。 如 果 它 在 
边界 所 定义 的 范围 之 外 ， 则 会 产生 异常 ， 并 且 操 作 系 统 必须 进行 恢复 处 理 。68020 还 提供 了 
一 条 格式 与 cHKk2 相同 的 cmP2 指令 ， 但 它 会 将 进 借 位 标志 置 为 1 以 指出 地 址 越界 错误 。 

cMP2 和 cHK2 指令 的 一 个 有 趣 特点 是 它们 能 检测 地 址 和 数据 寄存 器 的 值 ， 并 能 对 8 位 、 
16 位 或 32 位 地 址 边界 进行 处 理 。 而 且 ， 它 们 能 检测 有 符号 和 无 符号 的 地 址 边界 。 如 果 要 检 
测 一 块 存储 区 ， 那 么 它 的 边界 可 能 是 $801000 ~ $801FFF。 如 果 要 检测 值 为 -128 ~ +127 
的 数组 下 标 ， 则 边界 为 $80 一 $7F。 处 理 器 会 自动 确定 地 址 边界 是 有 符号 的 还 是 无 符号 的 。 
例如 ， 地 址 对 $20,$30 或 $8A0,$AF 会 被 解释 为 无 符号 的 ， 而 地 址 对 $80,$20 或 $B2,$C4 会 
被 认为 是 有 符号 的 。 

图 4-17 描述 了 指令 cnra 中 指定 的 地 址 边界 与 有 





效 值 范围 之 间 的 关系 。 在 每 一 种 情形 中 ,我 们 都 将 寄 和 A0 
存 器 A0 与 一 对 地 址 边界 进行 比较 。 在 前 两 个 例子 里 ， ame ean sa0 
地 址 边界 是 无 符号 的 。 我 们 已 经 了 解 了 复杂 指令 的 能 W 


oe 8000 


力 ， 现 在 来 分 析 一 下 有 些 处 理 器 是 怎样 通过 存储 器 间 ee 
接 寻 址 模式 来 访问 数据 结构 的 。 : 


尽管 地 址 边界 检测 指令 的 想法 非常 好 ,但 68K 体 
系 结构 还 是 去 掉 了 这 些 指令 ， 因 为 它们 并 不 合算 。 在 
访 存 操作 需要 花费 大 量 时 钟 周期 的 今天 ，68K 所 实现 
的 边界 检测 指令 已 经 没有 什么 意义 。 下 面 的 文本 框 中 
介绍 了 存储 墙 ， 它 意味 着 访 存 操作 的 平均 访问 时 间 在 


Case2,DC.W 30, $8000 
无 符号 字 边 界 $0000, $8000 
例 3 
cues Cases, AG ery 0 10 


有 符号 字 节 边界 -860, +810 
图 4-17 cHK2 指令 的 使 用 实例 
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逐渐 增加 。 因 此 ，caxz 这 种 需要 读 出 地 址 上 下 边界 的 
指令 在 今天 并 不 合算 。 


只 不 过 是 墙 上 的 另 一 块 砖 

尽管 还 没有 介绍 计算 机 组 成 、 微 体系 结构 和 存储 技术 ,但 这 里 必须 要 说 明 很 重要 的 
一 点 : 好 消息 是 主 存 DRAM 存储 器 的 速度 一 年 比 一 年 快 ; 坏 消息 是 它 的 速度 提升 不 像 
处 理 器 那样 快 。 因 此 ， 处 理 器 性 能 提升 的 速率 快 于 存储 器 。 

处 理 器 与 存储 器 之 间 不 断 增加 的 性 能 差距 叫 作 存储 墙 ， 它 反映 出 计算 机 系统 设计 的 
一 个 潜在 障碍 。 这 个 概念 是 由 Wulf f McKee 于 1994 年 在 他 们 的 经 典 论文 《 Hitting in 
the Memory Wall: Implications of the Obvious 》 中 提出 的 。cache 存储 技术 能 够 缓解 这 一 
问题 一 一 但 仅 在 有 限 的 程度 上 。 

从 计算 机 体系 结构 和 [SA 的 角度 看 ， 存 储 墙 的 问题 非常 简单 。 像 防治 瘟疫 一 样 避 免 
访 存 就 可 以 了 。 





44.5 位 字段 数据 


本 节 从 介绍 位 字段 开始 ， 它 是 一 个 任意 长 度 的 位 串 ， 尽 管 真正 的 位 字段 的 最 大 长 度 被 限 
制 为 处 理 器 寄存 器 的 宽度 。 可 以 用 位 字段 来 表示 那些 长 度 不 像 字 符 、 整 数 、 浮 点 数 那样 正好 
是 8 位 、16 位 、32 位 或 64 位 的 信息 。 例 如 ， 一 个 19 位 的 位 字段 可 以 表示 一 个 包含 3 个 长 


度 分 别 为 3 位 、7 位 和 9 位 的 独立 字段 的 压缩 数值 。 同 样 ， 它 还 可 以 表示 图 像 中 一 行 像素 。 
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或 者 表示 磁盘 目录 中 扇 区 的 状态 (空闲 /已 分 配 )。 位 字段 如 何 使 用 没有 限制 。 

也 许 有 人 会 认为 8 位 微 处 理 器 给 数据 结构 强加 了 一 些 限 制 ， 将 数据 长 度 限制 为 8 位 的 倍 
数 会 将 访 存 和 数据 处 理 操作 限制 为 只 能 对 一 个 或 多 个 字 节 进行 处 理 。 至 于 大 家 为 什么 不 把 存 
储 器 看 作 一 个 非常 长 的 位 串 ， 也 没有 什么 根本 原因 。 不 过 ， 位 字段 的 应 用 并 不 广泛 ， 因 为 位 
字段 操作 会 增加 底层 硬件 的 复杂 度 。 由 于 存储 器 按 字 节 编 址 并 使 用 8 位 、16 位 、32 位 或 64 
位 总 线 ， 对 一 个 位 字段 的 访问 会 涉及 几 个 字 ， 可 能 需要 多 个 连续 的 访 存 ， 这 会 降低 性 能 。 

因为 位 字段 仅仅 是 一 个 由 连续 位 组 成 的 串 ， 因 此 一 个 位 字段 可 以 由 两 个 参数 来 定义 : 它 
的 宽度 或 长 度 w ; 它 在 存储 器 中 的 位 置 9。g 的 值 显 然 应 用 位 数 来 表示 。 例 如 ， 可 以 将 一 个 
56 位 的 位 串 * 定 义 为 距离 存储 器 第 1 位 92 345 位 ， 从 92 346 到 92 401 位 。 另 一 种 指定 位 
字段 的 方法 则 将 位 与 字 节 结合 在 一 起 一 一 它 用 字 节 地 址 指定 存储 位 置 ， 用 相对 于 该 位 置 的 偏 


移 量 指明 位 字段 相对 于 指定 字 节 的 位 置 。 
存储 器 中 的 


SHH vp 个 PS ote R vW, WE F naa 
图 4-18 描述 了 一 个 用 字 节 地 址 加 偏 ” 按 小 端 格式 对 字 节 和 位 编 pee on 


移 量 定义 的 位 字段 : 位 字段 从 存储 器 中 | ee | ee | ” 字 节 i | eI 
76543210765432107654321076543210 


FW TAS 0 位 起 的 第 11 位 开始 ， 宽 度 75543210 

为 10 位 。 图 中 从 右 至 左 对 存储 器 中 的 字 位 字段 人 

节 编号 ， 并 使 用 小 端 格式 放置 字 节 和 位 。 | FE 10 fit | 偏 移 11 位 | 
图 4-18 中 的 结构 是 一 致 的 小 端 格式 。 图 4-18 位 字段 

字 节 从 最 低 字 节 (右边 ) 开始 编号 ， 字 节 

中 的 位 也 是 如 此 。 位 字段 距离 字 节 i 的 偏 移 量 从 该 字 节 的 第 0 位 开始 计算 。 位 偏 移 也 由 右 至 

左 编号 ， 与 位 字段 中 的 位 一 样 。 读 者 很 快 将 会 看 到 并 非 所 有 处 理 器 都 遵循 这 一 约定 。 
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| 位 字段 的 编号 
字 节 中 的 位 从 右 至 左 进行 编号 ， 但 位 字段 中 的 位 则 从 左 至 右 进行 编号 。 
在 这 个 例子 里 ， 位 字段 的 字 节 地 址 为 Ta。 位 字段 偏 移 为 11 ， 因 为 它 的 第 1 位 是 从 字 
Pere re rae, 
这 个 10 位 的 位 字段 跨 了 H fo 42 两 个 字 节 。 
请 注意 这 种 编号 方法 并 不 适用 于 68020 处 理 器 。 





在 理论 上 ， 位 字段 的 大 小 可 以 从 0 到 存储 系统 的 总 位 数 。 因为 位 字段 会 被 放 在 计算 机 
的 寄存 器 中 进行 处 理 ， 位 字段 的 最 大 位 数 是 寄存 器 中 能 存放 的 或 CPU 能 处 理 的 位 数 (例如 
32 )。 实 际 实现 位 字段 时 会 遇 到 与 字 节 边 界 有 关 的 问题 ; 即位 字段 反映 了 计算 机 体系 结构 与 
计算 机 组 成 之 间 的 矛盾 。 

很 少 有 微 处 理 器 提供 能 直接 处 理 位 字段 的 指令 。 下 面 来 看 看 68020， 它 能 够 支持 如 图 
ci AMEE, pan AARMAARALL MARAE, RALLIES 
编号 。 位 字段 带 来 了 问题 ， 即 它 的 位 究竟 应 遵循 68K 的 位 编号 约定 还 是 字 节 编号 约定 ? 图 
4-19 描述 了 用 字 节 i 的 最 高 位 定义 位 字段 的 位 置 ( 字 节 i 叫 作 基 字 节 ， 也 是 指令 所 指定 的 位 
字段 的 有 效 地 址 )， 位 字段 中 的 位 按照 与 字 节 中 位 相反 的 顺序 编号 ; 即位 字段 遵循 大 端 格 式 
的 约定 。 位 字段 的 偏 移 从 基 字 节 的 第 7 位 开始 。 再 重复 一 遍 : 位 字段 中 位 按照 与 字 节 中 位 相 
反 的 顺序 编号 。 

下 面 以 一 条 典型 的 68020 指令 为 例 进行 讲解 : BFINs， 位 字段 取 反 操作 ， 将 数据 寄存 
器 Dn 中 的 位 字段 复制 到 存储 器 中 。 该 指令 的 格式 为 BFINs Dn,<ea>{offset:width}。 该 
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位 字段 将 保存 在 距离 有 效 地 址 为 <ea> 字 节 的 偏 移 量 为 offset 的 位 置 。 请 考虑 指令 BFINS 
D0,1234{11:103 的 解释 方式 。 寄 存 器 DO 的 最 低 10 位 将 被 复制 到 存储 器 中 从 地 址 为 1234 的 
基 字 节 的 第 7 位 起 第 11 位 ( 即 偏 移 量 ) 开始 的 位 置 (图 4-19 使 用 了 同样 的 偏 移 量 : 宽度 值 ， 
这 有 助 于 该 操作 的 图 形 表示 )。68020 人 允许 使 用 数据 寄存 器 动态 指定 位 宽 。 例 如 ， 可 以 将 指 


令 写 为 BFINS DO,1234{D3:D4},, 


基地 址 
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R a 位 字段 
偏 移 11 位 宽 10 位 


图 4-19 68020 的 位 字段 组 成 
下 面 来 看 一 个 位 字段 操作 的 使 用 实例 。 图 > sein 
4-20 描述 了 5 位 的 数据 元 素 x 被 压缩 保存 在 1514131211109 8 7654321 0 
16 位 存储 字 单 元 中 。 假 设 现在 要 展开 这 个 位 「 | | | | x. x x [| | 
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字段 。 如 果 没 有 位 字段 指令 ， 一般 需要 先 将 | N | 
宽 为 5 位 
数据 载 人 寄存 器 ， 然 后 将 数据 右 移 以 将 其 最 
低位 对 其 到 寄存 器 的 右 端 ， 最 后 将 寄存 器 中 图 4-20 压缩 的 数据 
其 余 位 清 0。 
MOVE  PORS,D0 ; 将 存储 单元 PQRS 中 的 16 位 压缩 数据 送 入 D0 
LSR #6,D0 ; D0 右 移 6 位 ,将 位 字段 D。-D: HF 
AND #%0000000000011111,D0 ; 清除 寄存 器 DO PHAM. + 表示 二 进 制 值 
68020 的 位 字段 提取 指令 BFEXxTU， 可 用 一 条 指令 完成 上 述 操 作 : 
BFEXTU PQRS{5:5},D0 ; 获得 压缩 数据 
请 注意 位 字段 偏 移 量 为 5， 因 为 位 字段 的 源 位 字 
位 字段 
位 是 从 基 字 节 的 最 高 位 计算 的 ( 即 字 的 第 15 |。 ite 
位 )。 位 字段 的 第 一 位 为 x,， 它 位 于 第 15 位 右 1000 ; 
边 第 5 位 。 是 的 ， 这 已 经 够 令 人 头疼 了 。 1001 a 
典型 的 位 字段 操作 可 以 从 存储 器 读 出 一 个 5 
位 字段 ， 将 一 个 位 字段 插入 存储 器 ， 将 位 字 | 
段 中 的 所 有 位 清 0/ HE 1/ 取 反 ， 并 测试 一 个 位 LV o 
字段 。 图 4-21 描述 了 怎样 用 下 面 两 条 指令 把 图 4-21 用 位 字段 指令 传送 位 
地 址 为 1000 的 存储 单元 中 6 一 3 位 的 位 字段 传送 到 地 址 为 1003 的 存储 单元 的 4 一 1 位 : 
BFEXTU $1000,{1:4},D0 ; 将 源 位 字段 读 入 D0 
BFINS DO0,$1003,{3:4} ; 将 位 字段 保存 在 存储 器 中 


请 回忆 一 下 ， 偏 移 量 1 和 4 都 是 相对 于 基地 址 字 节 的 第 7 位 的 。BFINs 是 位 字段 插入 指 
， 将 一 个 位 字段 送 入 存储 器 。 下 面 列 出 了 68K 的 位 字段 指令 。 
BFEXTU BFEXTU <ea>{offset:width},DIn 提取 无 符号 位 字段 指令 ， 将 一 个 位 字段 从 存储 
器 拷贝 到 数据 寄存 器 中 。 这 是 与 传统 move 或 Loan 指令 等 价 的 位 字段 指令 。 位 
字段 被 加 载 到 寄存 器 的 低位 ， 而 高 位 被 清 零 。 


a> 
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BFEXTS BFEXTS <ea>{offset:width},Dn 提取 有 符号 位 字段 指令 ， 将 一 个 位 字段 传送 到 
数据 寄存 器 中 。 当 位 字段 被 送 入 数据 寄存 器 时 ， 它 将 符号 扩展 为 32 位 。 

BFINS BFINS Dn,<ea>{offset:width} 插入 位 字段 指令 ,将 一 个 位 字段 从 数据 寄存 器 
拷贝 到 存储 器 中 ， 是 与 stor 等 价 的 位 字段 指令 。 

BFTST BFTST <ea>{offset:width} 位 字段 测试 指令 ， 测 试 指 定 的 位 字段 并 根据 测试 结 
果 设 置 CCR。 如 果 位 字段 的 最 高 位 为 1 则 位 被 置 为 1， 如 果 位 字段 的 所 有 位 
都 是 0 则 Z 位 被 置 为 1。 

BFCLR BFCLR <ea>{offset:width) 位 字段 清除 指令 ， 像 BFrsz 一 样 测试 位 字段 ， 并 将 
位 字段 的 所 有 位 清 零 。 

BFSET BFSET <ea>{offset:width}) 位 字段 设置 指令 ， 像 BFrsT 一样 测试 为 字段 ， 并 将 
位 字段 的 所 有 为 置 1。 

BFCHG BFCHG <ea>{offset:width} 位 字段 测试 和 修改 指令 ， 其 行为 和 BFTsT 指令 一 样 ， 

只 不 过 位 字段 的 所 有 位 会 在 测试 后 取 反 。 

BFFFO BFFFO <ea>{offset:width}) 查找 位 字段 的 第 一 个 1 指令 ， 对 位 字段 的 位 进行 计 
算 。 它 读 出 并 扫描 指定 地 址 处 的 位 字段 ， 然 后 将 位 字段 中 第 一 个 1 所 在 的 位 置 
保存 在 指定 的 数据 寄存 器 中 。 请 注意 ， 位 字段 中 第 一 个 1 的 位 置 被 定义 为 位 字 
段 的 偏 移 量 加 上 该 位 在 位 字段 中 的 位 置 。 如 果 没 有 找到 1 (即位 字段 为 全 0 )， 
则 返回 值 为 偏 移 量 加 上 字段 宽度 。 

图 4-22 用 一 个 字 节 1001 的 21 位 位 字段 为 例 开 Pioo toot, 1002, 1003 

始 介绍 Berro 指令 的 功能 。 假 设 我 们 希望 确定 位 字段 p | 


S 








i i hehe T Tr | È 
中 第 一 个 1 的 位 置 。 如 果 $1000 为 基 字 节 ， 则 指令 J3 
BFFFO $1000{10:21},D0? 立 字 段 ， 确 定 第 一 个 位 字段 3 

tian. e Cr eee l 
第 1 个 二 进 制 
四 


1 的 位 置 (即位 字段 第 15 位 )， 并 将 值 25 载 人 寄存 器 
D1。 之 所 以 是 25， 是 因为 全 相生 一 个 1 的 位 
置 加 上 偏 移 量 10。 

位 字 眉 在 计算 机 图 形 学 等 领域 中 具有 重要 的 应 用 因为 可 以 用 位 字段 指定 显示 器 上 特定 
的 行 。 位 字段 还 可 以 被 用 于 描述 磁盘 目录 中 的 空闲 扁 区 列表 。 请 想象 一 下 表示 某 个 启 区 列表 
的 位 字段 ， 它 的 每 一 位 都 与 磁盘 上 一 个 扇 区 关联 在 一 起 。 如 果 某 一 位 被 置 1， 则 对 应 的 书 区 
正在 被 使 用 ( 即 属于 某 个 文件 )。 如 果 该 位 为 0， 对 应 的 扇 区 可 被 文件 人 使用。 同样 ， 还 可 用 
位 字段 操作 统计 二 进 制 串 中 1 的 个 数 或 者 确定 浮 点 运算 中 的 最 高 位 。Motorola 在 它们 后 来 的 
68K ColdFire 系列 处 理 咒 产品 中 去 掉 了 位 字段 指令 并 使 用 自 陷 (操作 系统 调用 ) 来 仿真 位 字 
段 操 作 。 在 下 一 节 ， 我 们 将 简要 介绍 计算 机 是 如 何 实现 一 个 叫 作 “循环 结构 ”的 简单 操作 的 。 


1 的 位 置 
图 4-22 BFFFO 指令 


| ARM 的 位 字段 
有 些 版 本 的 ARM 处 理 器 支持 有 限 的 位 字段 操作 。 本 章 后 面 将 会 介绍 ARM 的 
Thumb 模式 ， 该 模式 使 ARM 处 理 器 表现 为 使 用 两 地 址 指令 格式 的 16 位 指令 集 。 第 二 
代 Thumb 结构 提供 了 一 个 位 字段 插入 操作 ， 格 式 如 下 


BFI r0,r1, #bitpos, #bitwidth 


它 将 位 字段 从 一 个 寄存 器 复制 到 另外 一 个 寄存 器 (将 一 个 需要 3 条 指令 的 动作 集中 


EE EE ET om 
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在 一 条 指令 中 完成 )。 

除了 位 字段 插入 指令 ，ARM 的 Thumb-2 状态 还 提供 了 位 字段 清除 指令 以 及 有 符 
号 数 和 无 符号 数 的 位 字段 提取 指令 。 这 些 操 作 只 适用 于 数据 在 寄存 器 中 的 情形 ， 不 像 
68020 那样 可 以 直接 对 存储 单元 进行 操作 。 





4.4.6 ”循环 

下 一 个 内 容 是 循环 ， 最 常见 的 编程 结构 之 一 。 尽 管 所 有 处 理 器 都 提供 了 条 件 分 支 以 支持 
循环 ， 有 些 处 理 器 还 通过 一 些 方法 使 常见 的 循环 结构 更 加 高 效 。 首 先 ， 请 看 下 面 的 基本 循 
环 ， 它 可 用 伪 码 表示 为 : 


Preset loop variable 
REPEAT 
Perform some action 
Decrement loop variable 
UNTIL loop variable = 0 


可 以 通过 下 面 的 ARM 代码 实现 上 述 循 环 : 


MOV r0,#10 ; 设置 一 个 递减 的 循环 计数 器 
Next ; 循环 体 

SUBS r0,r0,#1 ; 循环 计数 器 递减 并 设置 状态 位 

BEQ Next ; REPEAT: 直到 循环 计数 器 为 0 


“计数 值 递减 ”和 “不 为 0 时 跳 转 ”是 这 个 循环 结构 的 关键 操作 。Intel 的 IA32 体系 结 
构 实现 了 一 条 显 式 循环 指令 ， 该 指令 使 用 cx 寄存 器 作为 循环 计数 器 2 完成 递减 和 分 支 操作 ， 
因而 不 需要 显 式 的 寄存 器 访问 。 这 条 指令 就 是 zoop， 它 仅 使 用 一 个 目标 地 址 作为 操作 数 。 
相应 的 IA32 代码 为 : 

MOV ex, count ; 设置 计数 值 
Next Do — ; 循环 体 
N ; 计数 器 递减 且 在 计数 值 不 为 0 时 跳 转 

68K 提供 了 一 条 复杂 的 过 成 和 分 去 指 意 aama 它 的 行为 与 IA32 的 循环 指令 相似 ， 
但 允许 程序 员 在 8 个 循环 计数 器 中 指定 一 个 并 在 两 个 出 口中 选择 一 个 。 当 循环 计数 值 为 -1 
时 或 检测 到 特定 条 件 成 立时 循环 结束 。 指 令 DBecoaition Di, target 的 动作 可 被 描述 为 : 


IF condition TRUE THEN EXIT ; 条 件 为 true 时 退出 
ELSE [Di] + [Di] - 1 i 
IF [Di] = -1 THEN EXIT ; 或 计数 值 为 -1 时 退出 循环 


ELSE [PC] < target 


该 指令 在 计数 值 为 -1 时 将 跳出 循环 ， 而 不 是 为 0 时 。 下 面 的 代码 段 描述 了 怎样 用 一 条 
Decs (递减 并 在 借 位 位 为 1 时 跳 转 ) 指令 对 10 个 整数 求 和 ， 且 发 生 整 数 溢出 时 会 退出 循环 。 


MOVE #10,D0 ; 设置 一 个 递减 的 循环 计数 器 
CLR D1 ; 清除 寄存 器 D1 中 的 和 
LEA Table,A0 ; 指向 数据 列表 
Next ADD (A0)+,D1 ; REPEAT: 加 下 一 个 数 
DBCS DO,Next ; UNTIL 所 有 加 法 都 已 完成 或 溢出 


O 最 初 的 Intel X86 体系 结构 带 有 4 个 16 位 通用 寄存 器 ， 叫 作 AX, BX, CX 和 DX。 与 68K 不 同 ，X86 的 寄 
存 器 还 实现 了 一 些 特殊 的 功能 。 例 如 ，CX 寄存 器 还 被 用 作 计 数 器 。 对 于 计数 功能 来 说 ， 使 用 专用 寄存 器 的 
好 处 是 不 必 在 计数 指令 中 指定 寄存 器 ， 这 会 使 操作 码 更 短 ， 因 为 不 再 需要 计数 器 选择 字段 。 
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若 没 有 c 指令 ， 循 环 体 将 需要 4 条 指令 。 请 注意 app (ao)+,pl 会 将 寄存 器 A0 所 指 
的 存储 单元 的 值 加 到 寄存 器 D1 中 ， 然 后 寄存 器 AO 中 的 指针 递增 。LEA ( 载 人 有 效 地 址 ) 指 
令 将 一 个 指针 送 入 地 址 寄存 器 ; 在 这 个 例子 中 ， 它 将 地 址 “Table” 加 载 到 地 址 寄存 器 AO 
中 。 最 后 ，68K 使 用 一 条 显 式 的 清除 指令 将 数据 寄存 器 的 值 清 0 ; 即 指令 chr po 的 结果 为 


[DO] = Ws 


4.5 存储 器 间接 寻 址 


现在 介绍 存储 器 间接 寻 址 模式 ， 它 是 一 种 实现 复杂 数据 结构 的 方法 。 寄 存 器 间接 寻 址 使 
用 一 个 指针 访问 所 需要 的 操作 数 。 而 在 存储 器 间接 寻 址 模式 中 ， 寄 存 器 提供 了 一 个 指向 存储 
器 中 指针 的 指针 。 实 际 的 操作 数 通过 读 取 这 第 二 个 指针 来 访问 ， 访 问 该 指针 所 指 地 址 处 的 数 
据 。 它 一 共 需 要 4 个 存储 器 /寄存 器 _— 

访问 : 读 指 令 、 读 包含 存储 器 指针 的 指针 寄存 器 
寄存 器 、 读 含有 指向 操作 数 的 指针 的 EII] 00001234，。 
存储 单元 ， 以 及 访问 操作 数 。 

图 4-23 描 述 了 存储 器 间接 寻 

址 ， 其 中 指针 寄存 器 中 含有 32 位 值 。 地 址 为 的 存储 单 
1234,s。 该 指针 所 指 的 目标 存储 单元 元 1234ie 的 内 容 就 
的 值 为 122488,s6， 它 作为 第 二 个 指针 时 作 数 的 地 址 
用 来 访问 实际 的 操作 数 。 如 果 最 初 的 | | 00122484, 
指针 寄存 器 为 R1， 目 的 寄存 器 为 R2， an te 


0012248C,, 
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指令 为 move， 则 该 操作 可 用 RTL 语 目的 寄存 器 
[R2] «= [ILIRL]]] 图 4-23 存储 器 间接 寻 址 


该 表达 式 定 义 了 获得 操作 数 所 需 的 3 次 访 存 操作 : 读 寄存 器 R1， 读 R1 中 的 指针 所 指 的 
存储 单元 ， 以 及 用 访问 存储 单元 得 到 的 指针 读 存储 单元 。 也 许 一 种 更 好 的 RTL 表示 方法 是 
将 它 拆 分 为 多 个 操作 。 l 


Pointerl + [R1] ; 这 是 寄存 器 中 的 指针 
Pointer2 + [Pointerl] ; 这 是 存储 器 中 的 指针 
Operand + ([Pointer2] ; 这 是 最 后 的 操作 数 

[R2] + Operand ; 将 操作 数 保存 在 目的 寄存 器 中 


支持 这 种 通用 存储 器 间接 寻 址 模式 的 处 理 器 ， 如 68020、68030、68040 等 ， 使 用 下 面 的 
汇编 语言 格式 


MOVE [(A1)] ,D2 [D2] + [[[A1]]] 


地 址 寄存 器 Al 是 指针 寄存 器 ， 数 据 寄存 器 D2 为 目的 寄存 器 。 这 种 寻 址 模式 是 更 加 通 
用 的 68020 存储 器 间接 寻 址 模式 的 简化 形式 。 在 进一步 介绍 这 种 寻 址 模式 的 细节 之 前 ， 必 须 
要 问 一 个 问题 : 为 什么 需要 这 种 寻 址 模式 ? 

寄存 器 间接 寻 址 模式 以 及 它 的 那个 指针 在 处 理 简 单数 据 值 的 数组 或 表格 时 十 分 有 用 。 
请 参考 图 4-24， 图 中 的 数据 结构 含有 一 组 连续 的 16 字 节 值 。 指 针 寄 存 器 的 值 为 12341。， 
对 应 于 该 结构 的 第 一 项 。 为 了 访问 第 2 项 ， 必 须 将 指针 寄存 器 的 值 加 16。 处 理 器 使 用 
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带 偏 移 量 的 寄存 器 间接 寻 址 模式 将 常数 加 到 指针 上 。 例 如 ，ARM 处 理 器 可 以 用 指令 LDR 
r1, [r0,#16] ，68K 处 理 器 可 以 用 指令 Move (16,ao),p1。 有 些 计算 机 更 进一步 ， 人 允许 使 用 双 
索引 ， 有 效 地 址 是 两 个 索引 寄存 器 之 和 。 例 如 ， 指 令 LDR r1, [r2,r31 #12 与 r3 之 和 所 指 的 
数据 复制 到 寄存 器 rl 中 。 这 种 双 索 引 模 式 可 以 用 一 个 寄存 器 指向 数据 结构 的 开头 ， 而 用 另 
外 一 个 寄存 器 保存 要 访问 的 项 距离 结构 开头 的 偏 移 量 。 

不 幸 的 是 ， 并 非 所 有 数据 结构 都 像 图 4-24 那样 规整 ， 图 中 每 个 数据 项 的 大 小 都 相等 。 
图 4-25 描述 了 一 种 4 个 数据 项 大 小 都 不 同 的 情形 。 这 样 就 不 能 只 通过 指针 寄存 器 加 常数 的 
方法 来 一 项 一 项 地 遍历 这 个 数据 结构 。 


存储 器 存储 器 
















指针 寄存 器 
+ 0000123416 | Item 1 
— 
Item | 
tem 2 
存储 器 中 所 Item 2 aes 
有 数据 项 都 是 00001250\6! trem 3 _ 
16 字 节 长 Hem g 0000125Cd| F 
Ẹ FH, Item 4 E 
lem a 的 为 24 字 节 3, 
Ea 00001274, a 
JE、 Ə 9 
图 4-24 用 寄存 器 间接 寻 址 访问 规则 的 数据 结构 图 4-25 访问 不 规则 的 数据 结构 


可 以 用 男 一 种 方法 访问 结构 中 大 小 不 同 的 数据 项 。 图 4-26 使 用 了 一 个 指向 指针 表 的 指 
针 寄 存 器 。 其 中 每 个 指针 都 指向 存储 器 中 一 个 记录 。 简 单 地 将 基 指 针 加 4 就 可 以 遍历 这 些 数 
据 项 ， 因 为 用 基 指 针 就 可 以 遍历 指针 表 。 

如 果 使 用 存储 器 间接 寻 址 并 且 寄 存 器 AO 为 基 指 针 ， 则 可 以 用 指令 move [lao], no 来 访 
问 数 据 项 的 第 一 个 元 素 。 然 后 执行 指令 app #4,ao 将 A0 加 4 以 指向 下 一 个 元 素 的 指针 。 

图 4-27 展示 了 68020 是 怎样 通过 ( [offsetimer,aol ,offsetweer) 访问 指针 表 和 目标 数据 结 
构 的 ， 它 有 3 个 参数 。 下 面 一 起 来 看 看 这 个 表达 式 。 首 先 ， 将 基 指 针 寄 存 器 A0 与 内 部 偏 移 
相 加 ， 确 定 指针 表 中 指向 数据 结构 的 指针 的 位 置 。 然 后 从 存储 器 中 读 出 该 指针 并 与 外 部 偏 移 
相 加 以 访问 所 需 的 目的 操作 数 。 有 效 地 址 为 ( loffset yon, A0] ,Offset。wer) ， 可 用 RTL 表示 : 


[[[A0] + Offsetinner] + OffSetouter] , 


这 里 AO 为 基 指 针 ，offsetue* 是 指针 表 内 的 偏 移 常量 ，offsetwee* 是 目标 结构 内 的 偏 移 
常量 。 实 际 情况 要 更 复杂 一 些 : 一 个 索引 寄存 器 (要么 是 地 址 寄存 器 ， 要 么 是 数据 寄存 器 ) 
的 内 容 可 以 与 内 部 偏 移 或 外 部 偏 移 相 加 ， 但 不 能 同时 与 两 个 偏 移 相 加 。 索 引 寄 存 器 还 可 以 按 
比例 因子 1，2，4 或 8 缩放 。 

为 了 说 明 存 储 器 间接 寻 址 模式 的 作用 ， 进 一 步 给 出 两 个 例子 。 一 个 是 用 来 实现 case 结 
构 的 跳 转 表 ， 另 一 个 则 提供 了 访问 复杂 数据 结构 的 方法 。 

1. 用 存储 器 间接 寻 址 实现 switch 结构 

switch 是 许多 高 级 语言 中 都 提供 的 结构 ， 它 允许 我 们 根据 某 个 变量 的 值 调用 个 函数 
中 的 一 个 。 假 设 要 实现 一 个 CPU 模拟 器 。 其 中 带 有 一 个 内 部 解释 器 ， 类 似 于 下 面 从 4 种 情 
形 中 选择 一 个 的 代码 。 
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指针 寄存 器 存储 器 

as BZA 00014000,,fitem 1 

00001238, |00014008,, — 
0000123C,, MALA mate 


00001240, 00014028), 0001401C;, Item 3 


含有 指向 实际 数 rem4 Š 
据 元 素 的 指针 序列 数据 项 的 大 E 
的 第 一 级 表格 00014040,, 小 各 不 相同 B 

数据 结构 







基 指 针 寄 存 器 


内 部 偏 移 


Offsetine 

外 部 偏 移 

Offsetouer 

S| 

= 

E 

3 

E 

a 

Target operand=[[[Basepointer] +offset, nor] toffSetourer] Ə 


图 4-27 访问 目标 数据 结构 中 的 操作 数 


Switch (operation) 

{ 
case LOAD: { LOAD code; break:} 
case STORE: { STORE code; break:} 
case ADD : { ADD code; break:} 
case BEQ : { BEQ code; break:} 

} 


图 4-28 展示 了 这 段 代 码 所 用 的 数据 结构 ， 它 用 存储 器 中 的 表格 记录 了 函数 指针 。 将 对 
应 的 指针 载 人 程序 计数 器 就 可 以 执行 所 需 的 函数 。 下 面 用 传统 的 CISC 结构 (如 68K) 来 实 
现 一 个 switeh 结构 。 可 以 使 用 下 面 的 指令 通过 存储 器 间接 寻 址 来 调用 所 需 的 子 程序 : 

JSR ([A0,D0+4]) ; 调用 D0 指定 的 子 程序 ( 表 基 址 在 ao t) 


Bl [pc] + [[A0] + 4X [D0]]。 
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指向 表格 的 指针 


WEE 
(选择 函数 ) 
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图 4-28 BR. 


在 这 个 例子 里 ， 寄 存 器 A0 的 内 容 与 寄存 器 D0 内 容 乘 4 的 积 相 加 ， 得 到 所 需 子 程序 的 
指针 地 址 。 图 4-29 描述 了 AO 指向 指针 表 而 D0 的 值 为 索引 6 时 的 情形 。 

存储 器 间接 寻 址 则 提供 了 一 种 巧妙 的 解决 方法 ,该 方法 使 用 两 个 参数 和 一 条 指令 一 一 
ISR ([A0,D0*4])。 比 例 因 子 4 是 指令 的 一 部 分 ， 将 case 值 转换 为 一 个 4 字 节 (32 位 ) 的 地 
址 偏 移 量 。 如 果 没 有 存储 器 间接 寻 址 ， 则 要 使 用 下 面 的 代码 ， 该 代码 需要 4 条 指令 并 会 覆盖 
基 寄 存 器 AO: 


LSL: L #2,D0 ; D0 中 的 case 值 乘 4 
ADDA.L DO, AO ; case 值 与 表 基 址 相 加 
MOVEA.L (A0),A0 ; 读 取 指向 例 程 的 指针 
JSR (AO) ; 调用 例 程 


地 址 寄存 器 A0 
指向 指针 表 
N A0 DO 


数据 寄存 器 DO 中 
N+C Lae 4x [D0] = 24, = 18,6 含有 子 程序 的 索引 






N+20 | | 指向 子 程序 的 指针 


NOT ó 
Cl Zl 
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图 4-29 使 用 存储 器 间接 寻 址 访问 跳 转 表 


在 结束 这 部 分 内 容 之 前 ,我 们 通过 介绍 可 能 的 参数 来 说 明 68020 寻 址 模式 的 多 样 性 。 图 
4-30 和 图 4-31 介绍 了 68020 的 两 种 存储 器 间接 寻 址 模式 。 这 些 寻 址 模式 仅 在 索引 寄存 咒 的 
使 用 上 有 所 不 同 。 寻 址 模式 不 可 能 灵活 到 能 够 支持 所 有 可 能 的 变化 ， 因 为 这 需要 用 6 个 参数 
来 指定 一 个 地 址 。 相 反 ， 我 们 提供 了 两 个 基本 选择 : 前 变 址 (前 索引 ) 和 后 变 址 (后 索引 )。 
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An 






带 前 变 址 的 存储 器 间接 寻 址 
注意 

sc= 寄存 器 缩放 因子 

bd = 内 部 偏 移 量 

od = 外 部 偏 移 量 
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图 4-30 ”前 变 址 存储 器 间接 寻 址 


重 温 SWITCH 一 一 ARM 的 版 本 


下 面 是 用 ARM 代码 实现 switch 结构 的 实例 。 请 注意 它 是 怎样 使 用 内 置 的 移 位 操作 
来 缩放 case 值 的 。 


switch (Number) 


{ 
Case 0: code 1; break; 
Case 2: code 2; break; 
Case m-1: code m-1; break; 
; 假设 case 值 最 初 在 ro 中 
ADR r1,CaseTab ; 将 指向 case 表 的 指针 载 入 
LDR r15, [r1,r0,LSR #2] ; 跳 转 到 所 选 的 case 
CaseTab DCD case 0 ; case 0 代码 
DCD case 1 ; case 工 代 码 








图 4-30 描述 了 前 变 址 存储 器 间接 寻 址 ， 其 中 索引 寄存 器 从 指针 表 中 选 出 一 个 指针 。 由 
于 可 以 在 运行 时 修改 索引 寄存 器 ， 因 此 可 以 修改 指针 并 选择 任 一 记录 。 

图 4-31 描述 了 带 后 变 址 的 存储 咒 间 接 寻 址 ， 其 中 索引 寄存 器 与 记录 指针 相 加 ， 可 以 动 
态 选 择 记 录 中 的 某 个 特定 元 素 。 由 于 68020 的 存储 器 间接 寻 址 模式 只 允许 一 个 索引 寄存 器 ， 
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程序 员 必 须 决定 是 将 第 一 级 表格 的 指针 作为 运行 时 变量 ， 还 是 将 第 二 级 表格 中 的 目标 记录 索 
引 作为 运行 时 变量 。 

在 图 4-30 和 图 4-31 中 ,sc 是 比例 因子 ， 可 用 于 缩放 索引 寄存 器 的 值 。 例 如 ， 有 效 地 址 
({20,A3],p4*4,64) 使 用 寄存 器 A3 访问 位 于 [A3]+20 处 的 32 位 值 ， 这 里 该 地 址 处 的 32 位 
值 是 一 个 指针 。 接 下 来 ，D4 的 值 乘 以 4 的 积 与 指针 与 64 的 和 相 加 。 最 后 的 结果 就 是 要 访问 
的 操作 数 的 地 址 。 







从 指针 表 访 问 的 数据 


带 后 变 址 的 存储 器 间接 寻 址 
ea = ([bd, An], Di*sc, od) 


I 
x 
a“ 
oa 
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图 4-31 后 变 址 存储 器 间接 寻 址 


2. 用 存储 器 间接 寻 址 访问 记录 

假设 有 一 组 由 变量 day 索引 的 记录 ， 且 每 个 记录 含有 最 多 6 个 32 位 项 。 还 假设 指向 记 
录 的 指针 表 中 含有 64 字 节 的 表格 描述 数据 (图 4-32 )。 我 们 已 经 构造 了 一 个 指针 表 使 用 的 
64 字 节 存储 区 ， 其 后 是 指针 。 每 个 指针 都 指向 某 一 天 的 6 个 结果 。 

图 4-32 中 的 寄存 器 A0 指向 数据 结构 存储 区 的 基地 址 ， 除 了 指向 记录 的 指针 外 ， 它 还 可 
以 含有 其 他 项 。 内 部 偏 移 量 bd 是 天 数列 表 起 始 地 址 相对 于 数据 区 起 始 地 址 的 偏 移 量 一 一 第 
一 天 对 应 的 数据 项 位 于 地 址 [A0]+bd 处 。 

要 选择 的 天 数 的 索引 位 于 数据 寄存 器 D0 中 。 因 为 指针 表 中 每 一 项 都 是 4 字 节 的 值 ， 必 
须 将 D0 的 内 容 乘 以 4。 因 此 ， 指 向 要 选择 记录 的 指针 的 有 效 地 址 为 A[0]+bd+4*[D0]。 处 理 
器 读 出 这 个 指向 天 数 记 录 起 始 处 的 指针 。 假 设 我 们 想 知 道 第 5 项 的 值 。 使 用 外 部 偏 移 量 可 以 
很 方便 地 完成 这 一 工作 。 当 处 理 器 从 存储 器 中 读 出 指针 时 ， 它 将 外 部 偏 移 量 与 指针 相 加 ， 计 
算出 要 访问 操作 数 的 有 效 地 址 。 如 果 这 个 例子 不 使 用 存储 器 间接 寻 址 ， 则 可 以 采用 下 面 的 汇 
编 代码 : 


LSL.L #2,D0 ; 将 学 生 索 引 乘 以 4 
LEA (64,A0,DO.L),AL ; 计算 指向 记录 的 指针 的 地 址 
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MOVEA.L (Al) ,Al ; 读 出 实际 的 指针 
ADDA.L #4,Al ; 计算 Cs 结果 的 地 址 
MOVE.B (A1),D1 ; BAR 









内 部 偏 移 量 
bd= 64 


[D0] x Ha 





用 [64,A0,D0*4] 
访问 指针 


Wednesday 所 对 应 的 
带 有 6 个 元 素 的 记录 


选择 的 





指令 MOVE.L 
([64,A0,DO*4] ,16) ,D1 的 作用 


图 4-32 带 前 变 址 的 存储 器 间接 寻 址 实例 
使 用 带 前 变 址 的 存储 器 间接 寻 址 要 完成 相同 的 计算 : 


MOVE.B ([64,A0,DO.L*4] ,4), D1 

如 前 所 述 ， 处 理 器 已 经 不 再 支持 这 些 复杂 的 存储 器 间接 寻 址 模式 ， 即 使 它们 能 够 实现 非 
常 紧 致 巧妙 的 机 器 代码 。 实 际 上 ， 有 人 认为 编译 器 很 难 利用 这 种 复杂 的 寻 址 机 制 ， 因 而 它们 
的 最 终 价值 很 低 。 如 果 将 68020 的 存储 器 间接 寻 址 与 它 的 位 字段 指令 结合 在 一 起 ， 依 然 可 以 
写 出 下 面 的 指令 : 

BFFFO ([128,A3,D4*4],64) {D2,D3},D7 

它 有 8 个 参数 。 这 样 一 条 指令 的 功能 非常 强大 (我 们 将 它 作为 习题 ， 请 同学 们 用 基本 的 
机 器 指令 实现 它 的 功能 )。 不 过 ， 这 条 指令 难以 实现 ， 速 度 相对 较 慢 ， 会 降低 指令 的 执行 速 
率 ， 并 且 编 译 器 很 难 充分 使 用 该 指令 。 
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4.6 压缩 代码 、RISC、Thumb 和 MIPS16 


现在 来 介绍 指令 集体 系 结构 中 一 个 不 太 常 见 的 内 容 一 一 压缩 代码 的 概念 。ARM 处 理 器 
和 其 他 一 些 处 理 器 能 够 改头换面 ， 从 32 位 变 为 16 位 ， 成 为 一 个 完全 不 同 的 体系 结构 。 它 们 
是 怎样 做 到 这 一 点 的 以 及 为 什么 它们 会 这 样 做 就 是 本 节 的 主题 。 

压缩 RISC 的 推出 是 计算 机 体系 结构 发 展 史 中 的 一 件 有 趣事 情 。 现 代 CISC/RISC 结构 的 
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32/64 位 处 理 器 凭借 其 宽 总 线 、 高 时 钟 频 率 以 及 大 内 存 为 工作 站 环境 提供 了 高 吞吐 率 ， 这 在 
现在 已 经 成 为 公理 。 和 通 人 式 处 理 器 是 CISC 世界 中 最 后 被 RISC 占领 的 阵地 之 一 。 从 激光 打 
印 机 到 MP3 播放 器 、 数 码 相 机 、 蜂 窝 电 话 以 及 玩具 等 应 用 中 都 可 以 找到 能 入 式 处 理 器 的 身 
影 。 在 很 长 一 段 时 间 ， 骨 入 式 处 理 器 都 是 第 二 代 8 位 微 处 理 器 的 现代 版 本 。 在 竞争 激烈 的 市 
场 中 ，8 位 微 处 理 器 使 用 价格 非常 便宜 的 8 位 存储 器 、 外 设 和 总 线 ， 以 获得 更 好 的 性 价 比 。 


压缩 

用 短 符号 替换 经 常 出 现 的 字符 串 可 以 压缩 文本 文件 的 大 小 。 也 可 以 通过 类 似 的 技术 
压缩 处 理 器 指令 以 得 到 密集 的 代码 。 压 缩 代 码 所 付出 的 代价 是 更 加 受 限 的 指令 集 ; 而 压 
缩 代码 所 带 来 的 好 处 是 可 以 使 用 8 位 总 线 和 外 设 的 能 力 。 蜂 帘 电 话 、 个 人 记事 簿 、 掌 上 
电脑 等 谱 入 式 应 用 无 法 承担 宽 总 线 带 来 的 高 昂 费用 。 本 节 将 介绍 叫 作 “Thumb ”的 压缩 
ARM 指令 集 和 叫 作 “RISC16” 的 压缩 MIPS 指令 集 。 


RISC 制造 商 希 望 进入 利润 丰厚 、 规 模 巨 大 的 嵌入 式 处 理 器 市 场 ， 但 它们 的 32 位 处 理 
器 在 这 些 应 用 领域 中 的 性 价 比 很 差 。 一 种 折 中 方案 是 设计 压缩 RISC, ERA RISC 体系 结 
构 的 许多 特征 ， 与 传统 RISC 兼容 ， 但 字 长 却 短 得 多 。Thumb 就 是 第 一 款 这 样 的 处 理 器 ， 是 
ARM 体系 结构 的 衍生 品 。 


4.6.1 Thumb 指令 集体 系 结构 


之 所 以 要 介绍 Thumb 状态 是 因为 它 展示 了 极 高 的 创造 力 。Thumb 使 用 ARM 处理 器 的 
32 位 指令 集 并 强制 将 其 转换 为 16 位 模式 ， 同 时 还 保持 了 ARM 处 理 器 指令 集体 系 结构 的 精 
fifi, ARM 处 理 器 的 Thumb 状态 为 设计 者 提供 了 最 好 的 16 位 和 32 位 处 理 器 兼容 的 机 制 : 处 
理 器 既 可 以 执行 压缩 的 16 位 Thumb 代码 ， 也 可 以 执行 一 般 的 32 位 代码 。 做 到 这 一 点 的 方 
法 是 通过 将 所 需 的 ARM 处 理 器 代码 放 在 小 容量 32 位 宽 存储 器 中 ， 而 把 其 他 代码 放 到 价格 
便宜 的 16 位 宽 存储 器 中 。 进 行 性 能 优化 以 后 ，Thumb 代码 








的 体系 结构 比 ARM 代码 小 26%。 对 代码 体积 进行 优化 以 
Ja, Thumb 代码 的 体系 结构 ARM 代码 小 32%。 当 进行 性 
x w j S ; ~ r7 
eg Thumb 代码 的 性 能 可 以 达到 本 地 ARM 代码 的 papain 
图 4-33 描述 了 Thumb 的 寄存 器 组 ， 与 第 3 章 介 绍 的 
ARM 处 理 器 寄存 器 组 非常 相似 。 在 Thumb 状态 下 ， 程 序 员 
可 以 不 受 限 制 地 访问 寄存 器 r0 ~ r7、 栈 指针 (rl3 )、 链 接 ioe 
寄存 器 (r14) 以 及 程序 计数 器 (r15 )。 寄 存 器 r8 ~ r12 只 


能 由 特殊 指令 访问 。 绝 大 多 数 Thumb 指令 都 采用 了 与 传统 
CISC ISA 相同 的 两 地 址 格式 。Thumb 指令 字 长 都 是 16 位 SPOT 程序 计数 器 

并 且 使 用 了 ARM 体系 结构 的 一 些 概念 。 例 如 ， 有 些 指 令 提 图 4.33 Thumb 寄存 器 组 
供 了 条 件 执行 。 
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Thumb 寄存 器 

寄存 器 r0 ~ 17 可 被 通用 Thumb 指令 访问 。 

除了 专用 ARM 指令 外 ， 其 余 指 令 不 能 访问 寄存 器 r8 一 rl2。 

寄存 器 r13 一 r15 是 专用 的 系统 寄存 器 。 栈 指针 是 传统 的 CISC 风格 的 栈 指 针 ， 会 在 
数据 通过 Thumb 指令 PUSH 和 pop 入 栈 或 出 栈 时 自动 递增 或 递减 。Thumb 状态 下 的 栈 为 
满 递 减 栈 。 





ARM 系列 处 理 器 使 用 CPSR 的 第 5 位 T 位 表示 处 理 器 是 否 处 于 Thumb 状态 。 如 果 T 
位 被 置 1， 处 理 器 会 将 代码 解释 为 16 位 的 Thumb 指令 ; 和 否则， 代码 正常 执行 。 复 位 之 后 
ARM 处 理 器 会 进入 它 缺 省 的 本 地 状态 。 

执行 Bx (分 支 并 交换 ) 指令 可 以 进入 Thumb 状态 ， 该 指令 将 CPSR 的 工 位 置 为 1 并 跳 
转 到 指定 的 位 置 。 使 用 同样 的 指令 可 以 使 处 理 器 从 Thumb 状态 切 回 ARM 处 理 器 状态 。 其 
格式 为 Bx Rn， 这 里 寄存 器 Rm 中 含有 要 执行 的 Thumb 代码 的 目标 地 址 。 

当 执 行 Bx 指令 时 ， 会 检测 Rm 的 最 低位 。 如 果 该 位 为 1， 处 理 器 将 切换 到 Thumb 状态 ， 
并 开始 执行 地 址 Rm 处 的 代码 ， 该 地 址 是 按 半 字 (16 位 ) 对 齐 的 。 如 果 Rm 的 最 低位 为 0， 
则 将 跳 转 Rm 中 到 按 字 ( 32 位) 对齐 的 地 址 处 ，ARM 处 理 器 继续 在 缺 省 状态 下 执行 。 

设计 决定 

任何 人 都 乐意 从 小 房子 搬 到 大 房子 ， 但 从 大 房子 搬 到 小 房子 却 总 是 令 人 痛苦 的 ， 因 为 必 
须 决 定 要 丢掉 什么 。ARM 体系 结构 的 设计 者 在 设计 Thumb 状态 时 面临 着 同样 的 问题 : 应 该 
丢掉 什么 呢 ? 杂 物 和 奢侈 品 自然 可 以 ， 但 那些 必需 品 是 不 能 丢掉 的 。 

去 掉 一 些 寄存 器 可 以 减少 操作 码 的 位 数 ， 但 会 大 幅度 改变 体系 结构 并 且 导 致 Thumb 状 
AM ARM 处 理 器 状态 无 法 兼容 。 一 种 折 中 是 保持 原 有 的 寄存 器 组 并 且 重 新 定义 寄存 器 的 访 
问 方式 。ARM 处 理 器 体系 结构 中 的 8 个 寄存 器 r0 一 r7 会 被 直接 映射 到 Thumb 状态 的 寄存 
fr tO ~ r7 上。 寄存 器 rl14 和 r15 (链接 寄存 器 和 程序 计数 器 ) 保持 不 变 ， 不 过 它们 不 能 被 显 
式 访问 了 ， 需 要 使 用 新 的 指令 来 访问 。 寄 存 器 rl3 在 ARM 处 理 器 体系 结构 中 被 用 作 栈 指针 
(按照 约定 )。 在 Thumb 状态 下 r13 被 定义 为 硬件 栈 指 针 ， 带 有 自动 递减 和 递增 模式 。 

寄存 器 r8 一 r12 比较 特殊 。 绝 天 多 数 指令 都 不 能 访问 这 些 寄存 器 一 一 只 有 那些 最 常用 的 
指令 才 可 以 。 这 一 策略 使 指令 设计 者 在 大 多 数 时 间 可 以 使 用 3 位 的 寄存 器 选择 字段 ， 而 程序 
员 可 以 在 特殊 的 情形 下 访问 额外 的 寄存 器 。 

就 像 大 家 所 期 盼 的 那样 ，Thumb 结构 丢掉 了 奢侈 的 条 件 执行 ， 这 样 每 个 指令 字 可 以 节 
约 4 位 。Thumb 状态 下 许多 指令 都 使 用 两 地 址 格式 (就 像 CISC 处 理 器 一 样 ) 以 避免 编码 第 
三 个 操作 数 。 同 样 ， 奢 侈 的 第 二 操作 数 移 位 也 被 丢掉 了 ， 并 增加 了 一 组 新 的 显 式 移 位 指令 。 
最 后 ， 通 过 大 幅度 削减 立即 操作 数 的 大 小 ， 最 大 地 节约 了 指令 字 长 。 

图 4-34 列 出 了 Thumb 数据 处 理 指令 的 编码 。 可 以 看 到 立即 数 已 经 被 减少 为 3 位 、7 位 
和 8 位 。 下面 给 出 了 图 4-34 中 的 8 种 指令 格式 。BNF 符号 app| sus 表示 ADD 和 sus 是 二 选 
一 的 。 由 竖 线 “|” 分 开 的 任意 元 素 都 代表 一 种 选项 。 





1 ) ADD Rd, Rn, Rm ; (ADD|SUB) 

2) ADD Rd, Rn, #imm3 ; (ADD|SUB) 

3 ) ADD Rd|Rn, #imm8 ; (ADD | SUB | MOV | CMP) 
4) LSL Rd|Rn, #imm8 ; (LSL|LSR|ARS) 


5) MVN Rd|Rn,Rn|Rs ; (MVN | CMP | CMN | TST | ADC | SBC | NEG | MUL | LSL | 


; LSR|ASR|ROR|AND|EOE|ORR| BIC) 


6) ADD RdlRn, Rm ; (ADD|CMP|Mov) 高 位 寄存 器 
7) ADD Rd, SP | PC, #imm8 ; (ADD) 
8) ADD SP, SP, #imm7 ; (ADD|SUB) 


对 于 每 种 情形 ， 我 们 都 提供 了 一 种 简单 的 指令 格式 ， 并 在 右边 列 出 了 一 条 采用 该 格式 的 
指令 。app 和 sun 指令 具有 多 种 格式 ， 只 有 指令 格式 5 (两 个 操作 数 ， 寄 存 器 - 寄存 器 型 ) 支 
持 一 般 的 数据 处 理 指令 。 


15141312111098 7 65 4 32 1 0 立即 数 
00011 Off ate ADD|SUB Rd, Rn, Rm | o #mm 


ADD|SUB Rd, Rn, #imm 


Pes <Op> Rd|Rn, #imms 





| LsL|LSR|ASR Rd, Rn, #shift 
<Op> Rd|Rn,Rm/Rs 
et] ADD|CMP|MOV Rd|Rn, Rm 


| ADD Rd, SP| PC, #imm8 
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: nm7 | ADD|SUB SP,SP, #imm7 
图 4-34 Thumb 状态 数据 处 理 指令 的 编码 


指令 执行 后 更 新 ARM 处 理 器 状态 位 的 常用 方法 是 ， 在 指令 助 记 符 后 附加 一 个 “S”( 并 
将 操作 码 的 S 位 置 为 1 )。 在 Thumb 状态 下 ， 这 一 方法 也 被 丢弃 了 ， 而 是 采用 了 8 位 处 理 器 
(以 及 1A32/68K 体系 结构 ) 中 的 传统 技术 ， 即 对 寄存 器 r0 ~ r7 进行 处 理 的 数据 处 理 指令 总 
会 更 新 条 件 码 位 。 

指令 格式 6 用 于 访问 寄存 器 r8 一 r12， 处 理 这 些 寄存 器 的 数据 处 理 操 作 不 影响 标志 位 ， 
当然 , CMP 指令 除外 。 

app 和 sun 指令 的 格式 最 为 多 样 。 指 令 格式 5 (两 个 操作 数 ， 寄 存 器 - 寄存 器 型 ) 是 唯 
一 一 种 支持 一 般 数 据 处 理 的 指令 。 

图 4-35 描述 了 Thumb 状态 分 支 指令 的 编码 。 条 件 分 支 带 有 8 位 偏 移 量 ， 而 无 条 件 分 支 
的 偏 移 量 有 11 位 。 这 种 分 支 指令 编码 方案 可 以 支持 循环 和 if-then-else 结构 中 的 小 范围 条 件 
NE « 

子 程序 调用 指令 一 一 分 支 并 链接 (BL)， 带 来 了 一 个 特殊 的 问题 。 任 何 一 个 大 的 代码 段 都 
会 需要 长 距离 子 程序 调用 ， 因 此 ， 短 立即 数 不 可 能 提供 所 需 的 目标 地 址 范围 。ARM 的 解决 
方法 是 采用 带 有 11 位 偏 移 量 的 分 支 并 链接 指令 ， 然 后 重复 执行 该 指令 得 到 第 二 个 11 位 偏 移 
量 ， 将 它们 拼接 在 一 起 得 到 一 个 22 位 的 偏 移 量 。 这 种 方法 允许 中 断 指令 对 而 不 产生 任何 有 
害 的 副作用 。 
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0100011 1—RTe 
4-35 Thumb 模式 分 支 指令 的 编码 


当 第 一 条 指令 执行 且 操 作 码 的 H 位 被 清 0 时 ,链接 寄存 器 作为 临时 寄存 器 ， 用 于 保存 
PC 加 上 目标 地 址 高 半 部 分 左 移 12 位 得 到 的 部 分 分 支 目 标 地 址 。 之 所 以 要 移 12 位 是 因为 在 
Thumb 状态 下 ， 所 有 指令 的 地 址 都 是 按照 16 位 或 半 字 边界 对 齐 的。 下 面 的 算法 描述 了 这 一 
操作 : 

1. H=0 lr=pc + 有 符号 偏 移 量 x 2” 

2. H=1 pe = lr + WEE 2's r= pe +3 

当 执 行 该 指令 对 的 第 二 条 指令 时 ， 目 标 地 址 的 低 半 部 分 与 链接 寄存 器 中 的 部 分 和 相 加 ， 
并 将 结果 送信 程序 计数 器 以 完成 分 支 操作 。 返 回 地 址 则 被 送信 链接 寄存 器 。 

在 编写 ARM/Thumb 程序 时 ， 必 人 须 告诉 汇编 器 正在 使 用 哪 种 状态 。 可 以 使 用 伪 指 令 
copE32 (ARM 代码 ) 和 copzie ( Thumb 代码 ) 将 代码 类 型 告诉 汇编 器 。 缺 省 的 伪 指令 为 
copE32。 例如 ， 


ADD ~ rl,r2,r3 ; 该 指令 表示 当前 处 于 ARM 状态 
ADR rO, This + 1; Æ Thumb 节 的 地 址 
;地址 加工， 强制 将 r0 的 第 0 位 变 为 高 





Jooo] BLIX Rm 





ro ; BAe A Thumb KA 

CODE] i W744 Thumb 指令 

This ; HA Thumb 状态 
ADD ri,r2 ; 该 指令 表示 当前 处 于 Thumb 状态 
ADR rO, That ; 生成 RRM 节 地 址 { 偶 地 址 ) 
BX ro ; 再 次 离开 一 一 返回 ARM 代码 
CODE32 ; 汇编 ARM 代码 

That ; 在 此 执行 ARM 代码 


图 4-36 描述 了 Thumb 的 load 和 store 指令 ， 它们 的 模式 与 相应 的 ARM 指令 相同 ， 只 
不 过 立即 数 指定 的 位 移 量 相对 较 小 (5 位 或 8 
位 )。 它 们 支持 字 节 、 半 字 和 字 等 类 型 的 数据 1514131211109876543210 
传送 。 偏 移 量 会 被 缩放 以 便 与 所 传送 数据 的 人 
大 小 相 适 应 。 例 如 ， 如 果 5 位 偏 移 量 为 12 A 
有 效 地 址 为 [rzo,#12] ， 这 里 r0 的 值 为 1000， 
则 将 访问 地 址 为 1012 的 字 节 ， 地 址 为 1024 
的 半 字 ， 或 地 址 为 1048 的 半 字 ， 因 为 偏 移 量 
会 自动 与 操作 数 的 大 小 相 乘 。 

可 以 用 形 如 LDR Ra, [pc,#imm8] 的 指令 8 
使 用 带 有 8 位 有 符号 偏 移 量 的 程序 计数 器 相 图 4-36 Thumb 态 数据 传送 指令 的 编码 








LPR Rd, [RC, #imm8] 


© Cengage Learning 2014 





“|| LOR|STR Rd, (PC, Himm8) 


218 RED HEERA 





对 寻 址 。 之 所 以 需要 这 种 特殊 的 指令 格式 是 因为 Thumb 状态 不 能 直接 访问 r15 中 的 程序 计 
数 器 。 显 然 这 一 寻 址 模式 是 为 了 载 入 局 部 常量 而 不 是 保存 数据 (无 论 如 何 ， 大 部 分 Thumb 
代码 都 在 ROM 中 )。 因 此 ， 这 种 指令 没有 ste 形式 。 

LDR Rd, [SP,#imm8] 和 和 STR Rd, [SP, #imm8] 是 该 指令 更 一 般 的 形式 ， 可 以 用 栈 指针 来 访 
问 数据 。 

Thumb 指令 集中 还 有 一 些 存储 器 传送 指 
令 ， 尽 管 变量 的 范围 不 像 在 ARM 处 理 器 体系 i uae an sai : > 
结构 中 那样 大 。 图 4-37 描述 了 块 寄存 器 传送 
指令 的 两 种 最 基本 的 形式 。 - 

16 位 指令 只 能 传送 寄存 器 r0 ~ 17 ; 不 能 。 图 437 Thumb 模式 多 寄存 器 传送 指令 的 编码 
传送 任何 其 他 的 寄存 器 。 

指令 STMIA Rnl, {registerList}) 将 registerList 指定 的 寄存 器 块 拷贝 到 寄存 器 Rn 指 
定 的 存储 区 。 

传送 后 递增 (increment after) 是 该 指令 唯一 允许 的 模式 ， 它 表示 将 寄存 器 保存 在 Rn 所 
指定 的 存储 单元 ， 当 寄存 器 值 传送 完 之 后 ，Rn 加 4: 编号 最 小 的 寄存 器 最 先 保存 ， 存 放 在 
地 址 最 低 的 存储 单元 ( 即 指针 寄存 器 中 的 地 址 初 值 ) 中 。 

H Q LDMIA Rn!,{registerList} 将 数据 从 存储 器 拷贝 到 寄存 器 中 。 首 先 将 地 址 最 
低 的 存储 单元 加 载 到 编号 最 低 的 寄存 器 中 ， 然 后 指针 加 4 并 进行 下 一 次 加 载 。sTMIRA 和 
LDMIA 指 邻 互 为 逆 操 作 ， 因 为 在 LDMIA Rnl, {registerList} 指 今 之 后 立即 执行 sTMIa 
Rn!, {registerList} 指令 ， 系统 状态 将 保持 不 变 。 

PUSH 和 Pop 是 另 一 对 块 传送 指令 ， 它 们 也 互 为 逆 操 作 ， 因 为 在 ror 后 执行 Pus8 操作 系 
统 状态 将 保持 不 变 。 这 些 指令 既 不 需要 指定 寄存 器 也 不 需要 “!” 后 绥 ， 因 为 按照 定义 ， 它 
们 将 访问 栈 指针 r13 所 指 的 栈 单 元 。 
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it 2 PoP|PUSH [regli oR)) 





PC 相对 寻 址 

寄存 器 间接 寻 址 用 一 个 寄 奇 器 提供 操作 数 的 地 址 。 因 为 寄存 器 的 值 可 以 改变 ， 有 效 
地 址 就 成 为 一 个 变量 ， 使 得 程序 可 以 在 运行 时 访问 动态 数据 结构 。 

如 果 程 序 寄存 器 本 身 就 是 指针 寄存 器 ， 那 么 目标 地 址 就 可 以 用 当前 指令 来 指定 。 这 
种 寻 址 模式 一 般 被 用 于 分 支 指令 中 以 实现 相对 分 支 ， 这 意味 着 无 需 重 新 计算 目标 地 址 就 
可 以 重新 定位 代码 。 

通过 使 用 PC 相对 寻 址 来 访问 操作 数 ， 代 码 就 是 完全 可 重 载 的 (因为 数据 地 址 可 由 
当前 的 地 址 指定 ) 并 且 可 将 其 存放 在 只 读 存储 器 中 。 


寄存 器 列表 的 语法 为 regsiterList{,R}， 这 里 {,R} FARRAH, ART se mK 
Pc。 例如 ，PUsH {ro-r4,1r} 和 PoP {r0-r4,pc}. 指令 的 R 字段 是 一 种 将 程序 计数 器 或 链接 
寄存 器 与 寄存 器 块 一 起 传送 的 巧妙 方法 。 

本 节 介 绍 Thumb 模式 有 以 下 几 个 原因 。 首 先 ， 它 代表 了 一 种 有 趣 的 指令 集体 系 结构 设 
计 方 法 ， 并 且 与 本 书 的 副标题 “主题 与 变化 ”一 致 。 其 次 ， 它 有 助 于 提升 ARM Holdings 
在 从 嵌入 式 计算 到 工业 用 户 等 不 同 领域 中 的 地 位 。 最 后 ， 它 反映 了 代码 密度 与 性 能 之 间 的 
折 中 。 
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4.6.2 MIPS16 


MIPS16 与 Thumb 类 似 ， 也 是 为 实现 16 位 处 理 器 同时 又 保持 与 MIPS IFI MIPS I 等 
32 位 体系 结构 的 兼容 而 设计 的 。MIPS16 的 诀窍 在 于 它 将 MIPS-III 的 32 位 指令 集 映射 到 
MIPS16 的 16 位 指令 集 上 。 图 4-38 描述 了 对 MIPS I 型 指令 来 说 是 如 何 实现 的 9。 本 节 不 会 
介绍 32 位 MIPS 体系 结构 ， 因 为 我 们 仅 对 32 位 ISA 映射 到 16 位 ISA 的 方法 感 兴趣 。 

MIPS 代码 的 压缩 是 通过 将 MIPS 指令 分 段 并 减少 各 段 的 位 数 而 实现 的 。 将 操作 码 减少 
一 位 进一步 精简 了 已 经 很 精炼 的 MIPS 指令 集 。 其 次 ， 寄 存 右 的 数量 从 32 个 减少 到 8 个 ， 
每 个 寄存 器 选择 字段 可 以 节约 两 位 。 最 后 ，I 型 指令 中 立即 数 的 大 小 也 从 16 位 缩短 到 5 位 。 


操作 码 WEGE Se ee 
5 位 3 位 3 RN 







MIPS 16 








Bit Aara eee 
6 位 5 位 5 位 


图 4-38 MIPS16 的 压缩 操作 码 格式 


MIPS16 使 用 了 经 典 的 两 地 址 模式 指令 ， 其 中 一 个 寄存 器 既是 源 操作 数 也 是 目的 操作 数 ; 
即 结果 会 覆盖 两 个 源 操 作 数 中 的 一 个 。 

将 32 位 指令 集 压 缩 到 16 位 字 中 需要 新 的 指令 来 处 理由 于 小 的 寄存 器 组 以 及 短 的 立即 数 
字段 带 来 的 问题 。MIPS16 有 一 条 扩展 指令 ， 它 不 执行 任何 操作 ， 只 是 简单 地 提供 一 个 11 位 
的 立即 数 ， 可 以 与 下 一 条 指令 中 的 5 位 立即 数 
拼接 在 一 起 。 这 一 机 制 当 然 比 CISC 的 多 长 度 指 
令 更 加 精巧 。 

像 Thumb — Ff, MIPS16 实现 了 硬件 栈 指 
针 ， 人 允许 相对 栈 指针 的 load 和 store 操作 这 
是 另 一 项 与 CISC 的 联系 更 加 紧密 的 特征 。 当 相 
对 栈 指针 进行 load 或 store 操作 时 ， 偏 移 量 为 8 
位 ， 因 为 元 余 的 寄存 器 字段 可 以 和 立即 数 拼接 
在 一 起 。 

图 4-39 展示 了 如 何 将 MIPS16 的 寄存 器 映 
射 到 MIPS 内 核 的 寄存 器 组 上 。 尽管 MIPS16 只 
有 8 个 可 见 的 寄存 器 ， 其 余 32 - 8 =24 个 MIPS 
寄存 器 只 能 通过 专门 的 传送 指令 访问 ， 它 们 能 
够 在 MIPS 内 核 与 MIPS16 的 寄存 器 组 之 间 找 贝 
数据 。 

MIPS16 4% 令 BEoz rx,immediate fil BNEZ 
rx, immediate 可 以 根据 任意 寄存 器 的 值 是 否 为 
0 来 进行 分 支 。 分 支 指令 从 指令 中 取出 8 位 有 符 
号 立即 数 ， 将 其 左 移 一 位 ， 并 将 其 与 程序 计数 图 4-39 将 MIPS16 的 寄存 器 映射 到 MIPS 内 核 





MIPS 内 核 
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器 的 值 相 加 ， 得 到 相对 地 址 。 当 指定 的 寄存 器 的 值 为 零 ( BEQz) 或 不 为 零 ( BNEz) 时 分 支 将 
转移 。 

图 4-39 还 展示 了 一 个 新 的 MIPS16 寄存 器 ， 叫 作 了 寄存 器 ， 它 不 属于 MIPS 内 核 。 该 寄 
存 器 与 指令 BTEQZ immediate 和 BTNEZ immediate 一 起 支持 条 件 执行 。 这 些 指令 的 行为 与 对 
应 的 agoz 和 BNEz 指令 相同 ， 只 不 过 被 测试 的 寄存 器 是 T 寄存 器 。T 寄存 器 由 MIPS16 的 小 
于 时 置 1 指令 置 1 或 清 0。 读 者 会 疑惑 为 什么 要 实现 T 寄存 器 ， 这 是 可 以 理解 的 。 假 设 要 比 
较 两 个 寄存 器 的 大 小 ， 可 以 用 sur R1,R2 指令 完成 比较 ， 用 BTEQz 和 BTNEz 指令 完成 分 支 。 


47 变 长 指令 

本 章 最 后 一 节 将 介绍 8 位 微 处 理 器 的 一 个 特征 一 一 变 长 指令 ， 它 源 自 IA32 和 68K 那样 
的 CISC 处 理 器 。 尽 管 RISC 家 族 (例如 PowerPC, SPARC, MIPS 和 ARM) 都 采用 定 长 指 
令 ，8 位 微 处 理 器 和 68K、IA32 系列 等 CISC 处 理 器 都 使 用 变 长 指令 。 每 条 指令 的 字 长 都 可 
能 不 同 ， 而 且 每 个 取 指 周期 中 程序 计数 器 也 不 会 按 常 数值 递增 。 如 果 不 是 所 有 指令 的 长 度 都 
相同 ， 处 理 器 预 取 指令 流 就 会 变 得 非常 困难 。 例 如 ， 处 理 器 无 法 读 出 顺序 的 第 10 条 指令 ， 
因为 它 不 知道 该 指令 的 边界 在 哪里 。 而 且 ， 变 长 指令 会 使 译 码 段 难以 设计 ， 因 为 该 段 必须 查 
看 完整 的 指令 字 而 不 是 单独 一 个 字段 。 

由 于 不 可 能 设计 出 一 条 真正 的 带 有 一 个 操作 码 和 一 个 操作 数 地 址 的 8 位 指令 ， 一 种 简单 
的 方法 是 实现 字 长 为 8 位 的 倍数 指令 。 不 过 ， 如 果 所 有 指令 都 是 32 位 ， 代 码 密度 将 会 很 低 。 
当 8 位 微 处 理 器 首次 出 现时 ， 主 要 的 设计 考虑 是 巨大 的 主 存 开 销 ( 比 今天 的 存储 器 大 约 贵 6 
个 数量 级 )。 一 种 解决 方法 是 使 那些 不 需要 操作 数 或 者 仅 需 要 很 短 的 操作 数 的 指令 字 长 为 1 
个 字 节 ， 需 要 8 位 操作 数 的 指令 字 长 为 2 个 字 节 ， 需 要 16 位 存储 器 地 址 的 指令 字 长 3 个 字 
节 ， 依 此 类 推 。 这 样 的 变 长 指令 最 早出 现在 大 型 机 中 。 

图 4-40 描述 了 一 种 提供 8 位 、16 位 或 24 位 有 效 字 长 的 技术 ; 这 是 一 个 基于 8 位 微 处 
理 器 的 假想 实例 。 指 令 字 被 划分 为 单独 的 字 节 ， 并 且 这 些 字 节 被 保存 在 连续 的 8 位 存储 单元 
中 。 例如 ,24 位 指令 保存 在 3 个 连续 的 字 节 中 。 当 然 ， 要 从 存储 器 中 读 出 这 条 24 位 的 指令 ， 
必须 在 取 指 段 执行 3 个 读 周期 。 

典型 的 8 位 微 处 理 器 用 一 个 字 节 表示 
每 个 操作 (有些 8 位 微 处 理 器 实现 了 两 字 8 位 
节操 作 码 )。 第 一 代 8 位 微 处 理 器 并 没有 
将 所 有 的 2° = 256 个 操作 码 全 部 分 配给 合 CREG 
法 指令 ， 在 指令 集中 留 下 了 空隙。 指令 集 a) 8 位 指令 (没有 操作 数 ) 
中 这 些 所 谓 的 孔洞 可 用 于 指令 集 扩展 ， 每 16 fi j= 





一 个 值 并 不 一 定 会 对 应 一 个 合法 的 操作 N+2 


Hh, ULM A eZ HARB DDES mms Nea 
配 的 操作 码 作为 指针 ， 指 向 一 组 新 的 最 多 b) 16 位 指令 ( 8 位 操作 数 ) 


256 个 操作 码 。 即 当 在 指令 集中 遇 到 这 样 24 位 存储 器 视图 
的 操作 码 时 ， 将 从 存储 器 中 读 出 接 下 来 一 | | 
个 字 节 以 判断 实际 操作 是 什么 (创造 了 一 “ADD 指令 ”地 [17 wae 3 
条 16 位 的 指令 )。 源 自 Intel 8080 的 Z80 c) 24 位 指令 (16 位 操作 数 ) 
就 是 将 这 种 方法 应 用 于 指令 集 设 计 的 最 好 图 4-40 变 长 指令 





= 
+ 
as 
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实例 。 

当 CPU 在 取 指 周期 中 读 出 当前 指令 时 ， 它 首先 检查 该 指令 的 类 别 或 类 型 ， 然 后 在 执行 
阶段 开始 之 前 读 出 0 个、1 个 或 2 个 更 多 的 字 节 。 从 概念 上 讲 ， 计 算 机 仍然 有 一 个 取 指 段 和 
一 个 执行 段 ， 但 取 指 段 被 扩展 为 从 主 存 中 读 出 变 长 指令 。 所 有 的 8 位 微 处 理 器 都 采用 了 这 种 
方案 。 读 者 可 以 将 读 取 扩 展 操作 数 段 视 作 处 理 器 执行 段 的 一 部 分 ， 因 为 直到 当前 指令 译 码 结 
R CPU 才能 开始 读 取 扩 展 操作 数 。 

变 长 指令 有 两 个 重要 的 好 处 。 第 一 个 好 处 是 一 款 名 义 上 为 8 位 的 处 理 器 可 以 使 用 任意 复 
杂 的 指令 ; 即 可 以 构造 一 台 实 现任 意 指令 集 的 计算 机 ， 无 论 它 有 多 大 或 多 复杂 。 同 样 ， 变 
长 的 地 址 字段 意味 着 可 以 设计 一 款 处 理 器 访问 任意 大 小 的 程序 和 数据 结构 。 变 长 指令 的 第 二 
个 好 处 是 频繁 使 用 的 指令 有 时 会 被 限制 为 一 个 字 节 ， 程 序 的 体积 将 最 小 。 例 如 ， 假 设 某 系 
统 经 常 执 行将 小 整数 1、2、3 或 4 与 寄存 器 相 加 的 操作 。 该 指令 可 被 编码 为 8 位 二 进 制 串 
xxxxxxyy, WX x 代表 操作 码 小 立即 操作 数 与 寄存 器 相 加 ， 两 位 yy 表示 参加 加 法 的 实际 操 
作 数 。68K 指令 集 用 术语 quick 代表 一 条 带 有 小 立即 操作 数 的 指令 。 例 如 ， 指 令 appe #3,D0 
将 3 与 寄存 器 DO 的 值 相 加 。 

实际 的 8 位 微 处 理 器 并 没有 采用 无 限 扩展 的 指令 和 操作 数 地 址 。 它 们 给 操作 码 分 配 一 
个 字 节 ， 提 供 最 多 256 条 指令 ， 而 且 操 作 数 被 限制 为 16 位， 提供 64 字 节 地 址 空间 。 后 来 ， 
Zilog Z80 等 8 位 微 处 理 器 使 用 16 位 操作 码 将 它们 的 指令 扩展 为 超出 8 位 指令 集 的 256 条 指 
令 的 限制 。 

请 考虑 带 有 8 位 操作 码 和 16 位 地 址 的 第 二 代 8 位 微 处 理 器 。 若 程序 所 占用 的 字 节 总 数 
为 Ss， 则 S=1+2m+ 3n， 这 里 1 是 8 位 指令 的 数量 ，m 为 16 位 指令 的 数量 ， 而 对 为 24 位 
指令 的 数量 。 因 此 ， 平 均 每 条 指令 所 用 的 字 节 数 为 S/(l+m+tn)。 

使 用 变 长 指令 有 好 处 也 有 坏处 。 由 于 每 条 指令 访问 外 部 程序 和 数据 存储 器 的 次 数 可 能 多 
达 5 次 ( 读 取 一 条 24 位 指令 的 3 个 字 节 需要 3 次 ， 如 果 指 定 的 操作 数 为 16 位 值 ， 则 需要 2 
KIE), TERA R. 

将 指令 译 码 为 1、2 或 3 字 节 格式 时 需 增 加 的 复杂 度 是 多 长 度 指令 的 一 个 小 小 的 不 足 。 
图 4-41 描述 了 带 有 变 长 指令 的 处 理 器 中 指令 译 码 的 4 种 方法 。 在 图 4-41a 中 ， 操 作 码 中 有 
两 位 被 保留 以 表示 指令 字 长 为 多 少 字 节 。 该 机 制 速度 快 ， 也 很 容易 实现 。 不 过 ， 它 浪费 了 操 
作 码 空 间 。 例 如， 如 果 只 有 个 别 指令 长 为 一 个 字 节 ， 指 令 空 间 中 以 00 为 前 级 的 四 分 之 一 部 
分 将 被 分 配给 没有 扩展 的 指令 。 

图 4-41b 描述 了 一 种 更 好 的 基于 哈 夫 曼 编码 的 方法 。 最 常用 的 指令 长 度 的 前 级 为 0， 这 
样 指 令 中 只 有 1 位 用 于 描述 指令 长 度 。 第 二 常用 的 指令 长 度 的 前 级 为 10， 需 要 用 两 位 指定 
省 令 长 度 ， 依 此 类 推 。 在 至 少 一 半 指 令 的 字 长 都 是 最 常见 字 长 、 至 少 四 分 之 一 指令 的 字 长 都 
是 第 二 常见 字 长 、… 的 系统 中 ， 这 种 方案 将 十 分 有 效 。 然 而 ， 由 于 使 用 可 变 的 位 数 表示 指令 
字 长 ， 留 给 定义 操作 码 的 位 数 也 必 将 是 可 变 的 。 因 此 ， 哈 夫 曼 编码 给 操作 码 设计 带 来 了 新 的 
问题 。 


哈 夫 曼 编 码 

验 夫 曼 编码 是 一 种 变 长 编码 ， 每 个 编码 的 字 长 不 同 。 当 菜 些 字 的 使 用 远 比 其 他 字 频 
繁 时 ， 哈 夫 曼 编码 将 非常 高 效 ， 因 为 可 以 将 短 编码 分 配给 那些 频繁 使 用 的 字 。 莫 尔 斯 码 
是 哈 夫 曼 编码 的 一 个 很 好 的 例子 ， 它 为 最 常用 的 字母 (英语 ) 分 配 最 短 的 符号 。 例 如 ， 
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FR ‘ce’ A-LR, BFHXB---, 
| 除了 使 用 哈 夫 曼 编 码 来 减少 机 器 代码 的 平均 长 度 外 ， 哈 夫 曼 编码 还 被 用 于 JPEG 图 
像 编码 中 以 进行 图 像 压 缩 。 


图 4-40a 和 图 4-40b 中 的 译 码 机 制 是 固定 的 。 图 4-41c 则 描述 了 一 种 可 以 无 限 扩 展 的 方 
案 。 取 指 段 会 测试 操作 码 中 的 标志 位 。 如 果 该 位 为 0， 则 无 需 任 何 扩展 。 如 果 该 位 为 1， 则 
需要 从 存储 器 中 读 出 一 个 扩展 字 节 。 如 果 扩 展 字 节 中 的 标志 位 为 0， 则 取 指 结束 。 如 果 扩 展 
字 节 中 的 标志 位 为 1， 则 读 出 男 一 个 扩展 字 节 ， 依 此 类 推 。 这 种 机 制 提供 了 一 种 数量 无 限 的 
扩展 字 节 ， 尽 管 它 的 速度 也 许 会 很 乙 ， 因 为 在 按照 顺序 从 存储 器 中 读 出 全 部 字 节 之 前 ， 无 法 
确定 扩展 字 节 的 总 数 。 

图 4-41d 描述 了 另 一 种 获得 指令 字 长 的 方法 ， 它 使 用 ROM 中 的 查找 表 完 成 指令 译 码 。 
这 种 方法 意味 着 任意 二 进 制 操作 码 都 可 以 与 任意 指令 字 长 关联 在 一 起 ， 因 而 消除 了 指令 编码 
的 许多 问题 。 然 而 ， 译 码 ROM 占用 了 大 量 芯 片面 积 并 且 会 减缓 指令 执行 速度 ， 因 为 必须 在 
指令 译 码 完成 之 前 访问 内 部 存储 器 。 

扩展 操作 码 


扩展 位 

00= 没有 额外 字 节 

01 = 1 个 额外 字 节 

10 = 2 个 额外 字 节 

11 = 3 个 额外 字 节 

a) 方案 1: 用 操作 码 位 定义 指令 字 长 


0 操作 码 无 扩展 
1 0 1 字 节 扩展 
EEI eee frie 


b) 方案 2: MARERE 
O 操作 可 ”| 无 扩展 


c) 方案 3: 使 用 每 个 扩展 字 节 中 的 标志 
ITER 


g 
nt 
“> 
木 
i 
© Cengage Learning 2014 


d) 方案 4: 使 用 查找 表 
图 4-41 变 长 指令 的 指令 字 长 译 码 
译 码 变 长 指令 
下 面 用 size 字段 来 说 明 可 变 长 指令 的 译 码 ， 如 下 所 示 。 假 设 每 次 从 存储 器 中 读 出 一 个 字 
节 。 在 下 面 的 代码 中 ，MAR (存储 器 地 址 寄存 器 ) 是 一 个 指针 ， 指 向 正在 访问 的 存储 单元 ; 


MBR (存储 器 缓冲 寄存 器 ) 是 一 个 寄存 器 ， 保 存 了 从 存储 器 中 读 出 的 数据 或 要 写 和 存储 器 的 
数据 。 这 些 概念 将 在 第 6 章 讨 论 。 
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MAR = PC; /* PC 送 入 MAR sy 
PC = PC +1; /* PC 递增 xf 
MBR = memory [MAR] ; /* 取 下 一 条 指令 */ 
IR = MBR; /* 将 MBR 拷贝 到 IR 
size = (IR&0xCO)>>6; /* 从 操作 码 中 提取 size 字段 */ 
switch (size) 
{ case 0: {break;} /* 没有 扩展 ， 因 此 在 这 里 退出 wh 
case 1: {MAR = PC; /* 有 1 个 字 节 扩展 ， 因 此 进行 一 次 读 */ 
PC = PC +1; 
MBR = memory [MAR] ; 
Extl = MBR; break; } 
case 2: {MAR = PC; /* 有 2 个 字 节 扩展 ， 因 此 进行 两 次 读 */ 
PC = PC +1; 
MBR = memory [MAR] ; 
Extl1 = MBR; /* 第 一 次 扩展 */ 
MAR = PC; /* 第 二 次 读 取 ， 得 到 下 一 个 字 节 wf 
PC = PC +1; 
MBR = memory [MAR] ; 
Ext2 = MBR; break;) 
case 3: { }; /* 依 此 类 推 … */ 


通过 测试 指令 中 操作 数 扩展 位 ， 可 以 实现 图 4-41b 中 的 哈 夫 曼 译 码 方案 。 如 果 该 位 为 
0， 则 结束 。 如 果 该 位 为 1， 则 执行 另 一 个 取 周 期 并 测试 下 一 个 扩展 位 ， 依 此 类 推 。 


MAR = PC; /* 读 取 周期 : PC 送 入 MAR */ 
PC = PC +1; /* PC 38 */ 
MBR = memory [MAR] ; /* 取 下 一 条 指令 E7 
IR = MBR; /* 将 MBR 拷贝 到 IR */ 
if (IR&Ox80==0) ; /* 测试 操作 码 的 第 一 个 size 位 */ 
/* 为 0 则 没有 扩展 ， 因 此 退出 */ 
else 

{ /* 至 少 还 需要 1 工 个 字 节 */ 
MAR = PC; /* 第 二 个 读 取 周期 ; PC 送 入 MAR */ 
PC = PC 41; /* PC 说 增 . 
MBR = memory [MAR] ; /* 取 下 一 条 指令 */ 
Ext1 = MBR; /* 保存 第 一 个 扩展 字 节 ey} 
if (IR&0x40==0) ; /* 测试 前 级 是 10 还 是 11 */ 
/* 如 果 前 缀 为 10， 则 带 一 个 字 节 退出 */ 

else 
{ /* 至 少 还 需要 1 个 字 节 */ 
MAR = PC; /* PC 送 入 MAR Ry 
PC = PC + 1; /* PC 递增 */ 
MBR = memory [MAR] ; /* 取 下 一 条 指令 */ 
Ext2 = MBR; /* 保存 第 二 个 扩展 字 节 */ 
if (IR&0x20==0) /* 测试 前 级 是 100 还 是 110 */ 
i /* 如 果 前 缀 为 100， 则 带 两 个 字 节 退出 */ 
else /* 继续 这 种 测试 方法 */ 

{: 依 此 类 推 
}; 


可 以 采用 与 哈 夫 曼 译 码 器 十 分 相似 的 方法 实现 图 4-41c 中 的 标志 位 方案 。 我 们 所 要 做 的 
就 是 读 一 个 字 节 然后 继续 累加 扩展 字 节 ， 直 到 标识 位 为 0。 


MAR = PC; /* 读 取 周期 : PC 送 入 MAR #7 
PC = PC +1; /* PC 递增 =f 
MBR = memory [MAR] ; /* 取 下 一 条 指令 */ 
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IR = MBR; /* 将 MBR 拷贝 到 IR */ 
if (IR&0x80==0) /* 测试 指令 字 的 标志 位 
; /* 为 0 则 没有 扩展 ， 因 此 退出 */ 
else 
{ /* 至 少 还 需要 工 个 字 节 */ 
MAR = PC; /* 第 二 个 读 取 周期 : PC 送 MAR */ 
PC = PC +1; /* PC 递增 mf 
MBR = memory [MAR] ; /* 取 下 一 条 指令 */ 
Exl = MBR; /* 保存 第 一 个 扩展 字 节 */ 
if (Ex1&0x80==0) /* 测试 第 一 个 扩展 字 节 的 标志 位 */ 
; /* 如 果 标 识 为 0， 则 没有 扩展 */ 
else 
{ /* 至 少 还 需要 工 个 字 节 */ 
MAR = PC; /* PC 3A MAR */ 
PC = PC +1; /* PC 递增 
MBR = memory [MAR] ; /* 取 下 一 条 指令 a A 
Ex2 = MBR; /* 保存 第 二 个 扩展 字 节 */ 
if (Ex2&0x80==0) /* 测试 第 二 个 扩展 字 节 的 标志 位 */ 
; /* 如 果 标 识 为 0， 则 没有 扩展 ~ */ 
else /* 继续 这 种 测试 方法 */ 


{ 依 此 类 推 
} 
20 世纪 七 八 十 年 代 的 16 位 体系 结构 必须 采用 多 长 度 指令 ， 因 为 16 位 不 足以 表示 操作 
码 和 一 个 操作 数 。 只 有 在 设计 出 32 位 指令 之 后 ， 将 操作 码 和 操作 数 编码 在 一 条 指令 内 才 成 
为 可 能 。 即 便 如 此 ，32 位 体系 结构 还 必须 是 寄存 器 - 寄存 器 型 的 ， 因 为 即使 使 用 32 位 也 没 
有 办 法 提供 一 种 有 两 操作 数 的 格式 。 


本 章 小 结 


指令 集体 系 结构 是 一 个 非常 有 趣 的 内 容 。 一 方面 ， 只 使 用 少量 的 机 器 指令 就 可 以 编写 出 
任意 的 程序 (极限 情况 下 ， 使 用 一 条 机 器 指令 就 可 以 编写 出 所 有 程序 )。 另 一 方面 ， 设 计 者 
必须 评估 性 能 、 代 码 密 度 、 向 后 兼容 性 以 及 竞争 的 处 理 器 等 多 种 因素 。 即 使 是 广告 执行 有 时 
也 必须 考虑 ， 因 为 在 微 处 理 器 发 展 的 早期 ， 指 令 被 宣传 为 在 手册 中 看 起 来 很 好 ， 但 对 性 能 的 
影响 很 小 。 为 公平 起 见 ， 我 们 将 不 再 考虑 早期 微 处 理 器 的 设计 目标 。 

前 一 章 介 绍 了 ARM 指令 集 。 本 章 从 几 个 方面 讨论 了 指令 集体 系 结构 :位 字段 ， 数 据 传 
送 和 压缩 ， 以 及 复杂 的 存储 器 间接 寻 址 模式 。 

这 一 章 中 有 一 部 分 专门 介绍 了 栈 ， 怎 样 使 用 栈 为 程序 员 设计 函数 提供 局 部 存储 ， 以 及 在 
函数 与 调用 程序 之 间 传 递 参 数 。 本 章 还 特别 地 分 析 了 系统 程序 员 使 用 的 C 语言 与 底层 机 器 
之 间 的 关系 。 我 们 用 交叉 编译 器 分 析 了 底层 体系 结构 支持 高 级 语言 的 方法 。 

本 章 最 后 一 部 分 介绍 了 半导体 制造 商 怎样 通过 代码 压缩 技术 使 ARM 或 MIPS 等 处 理 器 
的 代码 更 加 紧凑 ， 并 因此 使 它们 在 蜂窝 电话 和 了 PDA 等 应 用 中 的 性 价 比 更 高 。 


习题 
4.1 a 什么 是 栈 帧 ? 为 什么 它 非常 重要 ? 


b. 栈 指针 与 帧 指针 有 何 区 别 ? 
4.2 在 ARM 处 理 器 中 ,链接 寄存 器 与 帧 指针 有 何不 同 ? 
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4.3 下 面 的 代码 是 一 段 C 语言 调用 函数 的 程序 实例 。 


void adder(int a, int *b) 
{ 

*b = a + *b; 

} 

void main (void) 

{ 

int x = 3, Y = 4 
adder(x, &y); 


} 
下 面 是 68000 编译 器 的 输出 。 下 面 的 文本 框 列 出 了 一 些 指令 的 功能 。 


*1 void adder(int a, int *b) 
Parameter a is at 8(FP) 
Parameter b is at 10(FP) 


adder 
LINK FP, #0 

*2 { 

*3 tbh = a + “by 
MOVEA.L 10 (FP) ,A4 
MOVE (A4) ,D1 
ADD 8 (FP) ,D1 
MOVE D1, (A4) 

*4 } 
UNLK FP 
RTS 

*5 

*6 void main (void) 
Variable x is at -2(FP) 
Variable y is at -4 (FP) 

main 
LINK FP, #-4 

*7 { 

*8 int x = 3, y = 4; 
MOVE #3, -2 (FP) 
MOVE #4, -4 (FP) 

*9 adder (x, &y); 
PEA -4 (FP) 
MOVE #3, - (A7) 
JSR adder 

*10 

*11 } 
UNLK FP 
RTS 


请 画 出 函数 main 调用 函数 adder 之 后 栈 的 状态 ( 即 返回 地 址 已 经 处 于 栈 顶 但 还 没有 执行 
adder 函数 的 任何 代码 )。 请 仔细 地 标 出 栈 中 每 个 数据 项 ， 并 给 出 它们 相对 帧 指针 的 偏 移 量 。 


68000 指令 

68K 指令 能 对 字 节 、 字 或 32 位 长 字 进 行 处 理 ， ELE B, 
BRREREBR w (两 个 字 节 )。 oe 

MOVEA.L 10(F) ,ad 将 距离 A6 eee) 10 FP RS 
ragas A4 Fe : 











PEA 将 一 个 长 字 (3242) 数据 送 入 A7 所 指 的 系统 堆栈 中 。 栈 指针 指向 栈 顶 元 素 ， 
| 新 的 长 字 (32 位 ) 入 栈 之 前 先 将 栈 指针 减 4。68K 的 栈 对 应 于 ARM 的 FD ( 满 递减 ) Ro 
| 指令 PEA -4(sP) 计算 出 [spP] -4 定义 的 有 效 地 址 ， 并 将 数据 入 栈 。SP 和 A7 含义 
相同 。 
| LINK FP,#0 创建 一 个 0 字 节 的 栈 帧 ! 这 是 为 了 在 两 个 函数 之 间 建 立 链接 。 指 令 LINK 
| FP, #0 将 旧 的 帧 指针 入 栈 ， 并 将 栈 中 保存 的 帧 指针 地 址 送 入 新 的 帧 指针 。 请 注意 在 这 个 
| 例子 里 帧 指针 与 栈 指 针 都 指向 同样 的 位 置 。 
| UNLK FP 指令 将 帧 指针 (指向 帧 的 基地 址 ) 载 入 栈 指针 ， 从 而 释放 栈 帧 。 然 后 将 旧 的 
| 蚌 指 针 从 栈 中 取出 并 恢复 帧 指针 。 








4.4 我 们 说 任何 一 个 计算 机 程序 都 可 由 一 条 指令 构成 ， 沪 指令 完成 减法 并 在 结果 为 负 时 卡 转 。 请 讨论 
这 句 话 的 准确 性 。 

4.5 一 条 复杂 指令 之 所 以 被 称 为 复杂 ， 一 条 简单 指令 之 所 以 被 称 AA FREA 复杂 和 简单 这 
两 个 概念 对 于 指令 集体 系 结构 是 否 有 意义 ? 

4.6 ti © SBN a,b,c Ñ a X Wy: [a] = [a] — [b]; if [a] 0， 则 跳 转 到 c。 只 使 用 一 条 sBN 
destination, source, target (目的 减 去 源 并 在 差 为 负 时 跳 转 ) 指令 ， 实 现下 面 的 操作 。 


a. MOVE X,Y ; 将 存储 单元 Y 的 内 容 复制 到 存储 单元 X 
b. ADD X,Y ; 将 存储 单元 Y 的 内 容 与 存储 单元 X 的 相 加 
c. IF (X20) Y + 2Y ; 如 果 存 储 单元 X 的 值 大 于 0， 则 YY 一 2Y 
4.7 请 调查 3 个 不 同 的 微 处 理 器 系列 支持 的 乘法 和 除法 指令 。 为 什么 乘法 和 除法 指令 的 实现 方法 比 其 
他 指令 (比如 加 法 ) 多 ? 
4.8 8 位 微 处 理 器 和 IA32, 68K 等 经 典 CISC 处 理 器 都 支持 变 长 指令 。 带 有 不 同 长 度 指令 的 计算 机 体 


系 结构 有 何 优点 ? 它 又 有 什么 不 足 ? 

4.9 a. 数据 传送 指令 将 数据 从 源 地 址 传送 到 目的 地 址 。 在 实现 一 条 数据 传送 指令 时 ,设计 者 必须 了 解 
哪些 实际 问题 ? 
b. 有 的 数据 传送 指令 会 对 含有 要 传送 的 数据 元 素 的 位 序列 重新 排序 。 为 什么 

4.10 假设 某 基 本 指令 集 带 有 典型 的 算术 和 四 辑 指令 (add, sub, and, or, not, xor, Isl 和 1sr)。 仅 
使 用 该 指令 集 怎 样 将 一 个 32 位 从 存储 单元 a 传送 到 存储 单元 bp»， 且 将 字 节 顺序 由 PORSAS 
SORP。 

4.11 为 什么 有 些 处 理 支 持 双 精度 移 位 运算 ? 处 理 器 还 支持 哪些 双 精 度 运算 ? 

4.12 LEA (加 载 有 效 地 址 ) 和 PEA (有 效 地 址 人 栈 ) 是 68K CISC 处 理 器 的 两 条 指令 。 这 两 条 指令 的 功 
能 是 什么 ， 怎 样 使 用 这 两 条 指令 ? 

4.13 什么 是 边界 测试 ，68020 是 怎样 实现 边界 测试 的 ?” 如果 你 是 处 理 器 设计 者 ， 你 准备 怎样 实现 边界 
测试 ?你 能 想 出 其 他 将 边界 测试 集成 在 某 体系 结构 中 的 方法 吗 ” 

4.14 请 调查 几 款 微 处 理 器 ， 并 说 明 它 oa 

4.15 微 处 理 器 指令 集中 缺少 了 哪些 指令 ? 这 一 问题 的 目的 是 请 读者 思考 计算 机 所 完成 的 操作 类 型 以 及 
哪些 操作 可 用 于 加 速 运算 。 

4.16 a. 什么 是 存储 器 间接 寻 址 ， 它 是 如 何 使 用 的 ? 
b. 为 什么 很 少 有 处 理 器 会 实现 存储 器 间接 寻 址 ? 

4.17 68020 支持 带 前 索引 (前 变 址 ) 和 后 索引 (后 变 址 ) 的 存储 器 间接 寻 址 模式 。 这 里 前 索引 和 后 索引 
是 什么 意思 ? 如 果 只 能 实现 一 种 寻 址 模式 ， 你 认为 哪 种 更 好 ? 请 结合 具体 例子 说 明理 由 。 

4.18 68020 带 后 索引 的 存储 器 寻 址 模式 可 以 用 有 效 地 址 ( [64,A0] ,D3*2,24) 表示 
a. 用 图 形 和 文字 说 明 有 效 地 址 是 如 何 计算 的 。 
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b. 该 有 效 地 址 中 的 内 部 和 外 部 偏 移 量 分 别 是 什么 ? 

c. 什么 是 索引 寄存 器 缩放 ， 为 什么 要 实现 这 种 机 制 ? 

a. 就 Thumb 而 言 ， 什 么 是 压缩 代码 ? 

b. 压缩 体系 结构 是 否 反 映 了 计算 机 发 展 的 进步 ?请 举例 说 明 你 的 答案 。 


4.20 本 章 介绍 的 两 种 压缩 体系 结构 通过 限制 立即 数 的 范围 、 减 少 指令 数量 以 及 寄存 器 数量 来 减少 指令 
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字 长 。 请 给 出 其 他 压缩 指令 集 的 方法 。 

我 们 说 无 法 在 指令 流 中 确定 指令 边界 是 变 长 指令 集 的 一 个 问题 ， 因 为 必须 单独 译 码 每 一 条 指令 以 
确定 它们 的 长 度 。 为 完成 分 支 地 址 处 理 或 乱 序 执行 等 操作 ， 现 代 高 性 能 计算 机 会 预 取 指令 。 你 能 
否 提 出 一 种 机 制 既 可 以 支持 多 长 度 指令 ， 也 可 以 在 不 完全 译 码 指令 的 情况 下 确定 指令 流 中 指令 的 
边界 ? 

68K 系列 处 理 器 使 用 分 离 的 通用 地 址 和 数据 寄存 器 。 这 两 类 寄存 器 有 何 区 别 ? 由 于 绝 大 多 数 带 有 
通用 寄存 器 的 计算 机 都 不 会 从 硬件 上 区 分 数据 和 地 址 ，Motorola 的 这 一 设计 思想 是 好 还 是 坏 ? 在 
硬件 上 区 分 地 址 和 数据 有 哪些 优点 与 不 足 ? 

某 CISC 结构 通过 位 字段 指令 对 图 像 数 据 进 行 巧 妙 处 理 。 这 些 位 字段 指令 占 执行 代码 的 5%。 不 
过 ， 它 们 会 使 芯片 面积 增加 20%， 并 且 无 法 使 用 高 级 的 流水 线 以 及 其 他 微 体 系 结构 技术 。 如 果 不 
使 用 位 字段 指令 ， 芯 片 可 以 在 两 倍 时 钟 频率 下 工作 。 典 型 的 例子 是 可 用 7 条 机 器 指令 代替 1 条 位 
字段 指令 。 请 问 你 对 保留 或 去 掉 位 字段 指令 有 何 建 议 ? 

为 什么 在 讨论 位 字段 的 概念 时 会 遇 到 端 格 式 这 一 问题 ?请 结合 68020 的 位 字段 指令 阐述 你 的 
若 要 用 BFFFO 指令 处 理 图 P4-25 中 的 数据 结构 。 假 设 基地 址 为 800， 则 被 载 人 目的 寄存 器 的 值 是 
什么 ? 


基地 址 


800 801 802 803 


co 


|， 中 ols al 





spe0000000000000011RR 
位 字段 
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请 考虑 一 台 带 有 形 如 BFFFO R1, (R2),{R3:R4} 的 位 字段 指令 的 计算 机 。 执 行 这 条 指令 之 后 ， 寄 
存 器 RI 中 要 么 是 位 字段 中 第 一 个 1 的 位 置 ， 要 么 是 位 字段 的 长 度 。 寄 存 器 R2 是 存储 器 中 某 个 
字 的 地 址 ， 寄 存 器 RI 是 位 字段 相对 于 寄存 器 R2 所 指 的 字 的 偏 移 量 ，R4 是 位 字段 的 宽度 ， 值 为 
1 ~ 32 (不 支持 空 的 位 字段 )。 

对 于 一 台 真 实 的 或 假想 的 计算 机 ， 请 写 出 一 段 汇 编 指 令 ， 用 基本 ( 非 位 字段 ) 指令 实现 这 一 操作 。 
假设 可 以 使 用 动态 移 位 ， 请 说 明 解决 该 问题 的 所 做 的 所 有 假设 (例如 ,位 / 字 节 的 编号 方法 )。 
假设 没有 多 精度 移 位 指令 ， 只 能 使 用 逻辑 移 位 操作 。 怎 样 使 用 单 精 度 移 位 操作 实现 多 精度 移 位 ? 
68020 的 CHK2 和 CMP2 指令 非常 巧妙 ， 因 为 它们 可 以 将 某 寄 存 器 与 两 个 边界 比较 ， 在 运行 时 检 
测 数组 下 标 。 不 幸 的 是 ， 该 指令 的 开销 很 大 ， 因 为 它们 需要 从 存储 器 中 读 出 两 个 字 (上 下 地 址 边 
界 )， 这 个 操作 非常 耗 时 。 请 问 你 能 否 想 出 一 种 方法 实现 一 条 功能 相同 但 不 会 带 来 这 么 多 开销 的 
指令 ? 


68020 汇编 语言 指令 可 以 使 用 复杂 的 有 效 地 址 表达 式 : 
BFFFO { [16,A0,D1*4],8},D4 


请 写 出 能 够 实现 同样 功能 的 ARM 指令 序列 。 假 设 目的 地 址 为 32 位 字 。 

为 什么 完成 同样 功能 的 RISC 程序 的 体积 比 CISC 程序 的 大 ? 

假设 有 一 个 万 位 的 寄存 器 ,将 一 个 加 位 的 常数 载 人 该 寄存 器 会 带 来 一 点 问题 。 请 讨论 指令 集 设 
计 者 在 CISC 和 RISC 结构 上 怎样 解决 这 一 问题 ? 
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4.32 ARM 处 理 器 的 指令 编码 与 MIPS 处 理 器 的 有 何 区 别 ? 

4.33 若 你 正在 设计 一 款 与 ARM 系列 处 理 器 非常 相似 的 新 处 理 器 ， 但 对 ARM 处 理 立即 数 的 方法 不 太 
满意 。 请 回忆 一 下 ，ARM 指令 可 带 有 一 个 12 位 的 立即 数字 段 ， 包 含 一 个 4 位 的 比例 因子 和 一 个 
8 位 的 立即 数 。 你 想 出 了 一 个 新 的 办 法 一 一 查 色 表 或 常数 查找 表 。 你 的 体系 结构 知识 告诉 你 ， 大 
多 数 程序 所 用 的 立即 数值 范围 很 小 ， 但 你 还 知道 值 很 大 的 常数 和 指针 也 是 必需 的 。 查 色 表 是 一 个 
带 有 22 项 的 表格 ， 各 表 项 的 编号 将 被 依次 初始 化 为 0 一 4095， 这 样 就 可 以 表示 0 ~ 4095 范围 
内 的 立即 数 。 不 过 ， 使 用 专门 的 查 色 表 设置 指令 cluts， 程 序 员 可 以 将 他 们 和 希望 的 任何 32 位 值 
载 人 查 色 表 中 ， 最 多 一 共 4096 个 。 如 果 要 访问 的 立即 数 少 于 4096 个 ， 则 可 以 用 指令 中 的 12 位 
立即 数字 段 访问 它们 ， 该 字段 可 作为 查 色 表 指 针 。cluts 指令 是 个 很 棒 的 主意 还 是 个 策 办 法 ? 
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计算 机 体系 结构 与 多 媒体 
“一 幅 画 胜 过 千言 万 语 。” 
Anon 
“人 多 好 办 事 。 
俗语 





“今天 的 世界 太 难 懂 了 ， 为 什么 我 要 走 寻常 路 ?” 


—Pablo Picasso 


“时 间 是 我 最 大 的 敌人 。” 





Evita Peron 


本 书 先是 在 第 3 章 介 绍 了 ARM， 然 后 在 第 4 章 有 选择 地 关注 了 指令 系统 的 部 分 特征 ， 
至 此 读者 已 经 了 解 了 微 处 理 器 的 指令 集 。 现 在 我 们 通过 介绍 微 处 理 器 的 发 展 历史 来 结束 对 指 
令 系统 的 阐述 ， 这 段 历 史 对 于 从 指令 集 设 计 到 硬盘 的 发 展 在 内 的 许多 计算 机 技术 都 产生 了 深 
远 的 影响 。 这 就 是 多 媒体 (multimedia)， 它 对 计算 机 技术 的 发 展 产生 了 深远 的 影响 。 本 章 将 
从 引起 这 些 发 展 的 历史 背景 开始 ， 说 明 为 什么 音频 - 视觉 应 用 需要 复杂 的 数学 处 理 ， 接 下 来 
介绍 为 了 处 理 这 些 应 用 对 指令 系统 进行 的 强化 设计 。 

十 多 年 以 前 ， 我 所 任教 的 大 学 里 有 名 同事 离职 并 加 入 了 一 家 消费 类 电子 产品 的 大 型 跨国 
公司 。 当 我 俩 再 次 相 见 时 ， 他 问 我 ,“ 你 知道 这 么 多 数字 电子 设备 背后 的 驱动 力 是 什么 吗 ?” 
我 说 ,“ 不 知道 "， 他 说 ,，“ 是 酒店 客房 内 的 视频 点 播 需要 。” 在 一 家 有 上 百 间 客 房 的 大 酒店 里 ， 
可 能 有 上 百 位 客人 同时 点 播 并 实时 观看 影片 。 想 想 要 访问 、 人 处理 和 传送 的 数据 量 有 多 大 吧 。 
我 曾 乘坐 过 能 够 容纳 800 名 乘客 空 客 A380 飞机 ， 每 个 座位 都 带 有 一 个 终端 可 以 实时 访问 数 
十 部 影片 和 游戏 ， 快 退 和 快 进 。 

在 20 世纪 70 年 代 ， 微 处 理 器 不 过 是 用 来 实现 自动 洗衣 机 或 简单 桌面 计算 器 的 可 编程 控 
制 单元 。 在 第 一 代 8 位 微 处 理 器 时 代 ， 指 令 集 很 有 限 ， 而 且 甚 至 几乎 没什么 微 处 理 器 实现 了 
8 位 乘法 。 微 处 理 器 的 第 一 个 流行 应 用 是 字 处 理 ， 因 为 8 位 ASCII 编码 的 等 宽 Courier 字体 
的 处 理 还 是 很 容易 的 。 

随 着 时 间 的 推移 ， 微 处 理 器 的 新 应 用 不 断 出 现 ， 比 如 使 微 处 理 器 变 为 不 可 缺少 的 办 公 工 
具 的 电子 制 表 软 件 。 桌 面 出 版 的 出 现 使 人 们 可 以 使 用 各 种 字体 ， 脱 离 人 工 打字 机 以 及 它 的 等 
宽 Courier 字体 也 是 向 广阔 的 个 人 计算 迈进 的 一 步 。 

人 们 已 经 经 历 过 桌面 印刷 时 代 ， 进 入 了 多 媒体 时 代 。 多 媒体 一 词 代表 实时 处 理 声音 和 图 
像 的 计算 机 应 用 ， 尤 其 是 那些 集成 了 声音 和 视觉 的 应 用 。 很 少 有 多 媒体 应 用 比 影 片 的 检索 、 
处 理 和 播放 更 能 引 人 注 意 。 

多 媒体 应 用 对 存储 容量 、 处 理 能 力 、 低 延迟 和 带宽 提出 了 很 高 的 要 求 。 在 使 用 8 位 
芯片 以 及 8KB 内 存 的 简单 ASCI 字 处 理 时 代 ， 观 察 员 会 好 奇 为 什么 有 人 和 希望 硬盘 容量 超 
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过 10MB. WRAHA ASCI FAFA, EE EC i S 个 字符 组 成 ， 每 页 
大 概 500 个 词 或 大 约 3KB。 因 此 ,一 个 10MB 的 磁盘 可 以 存放 大 约 3 000 页 。 而 PC 机 和 
Microsoft DOS 出 现 之 后 ， 评 论 员 们 又 好 奇 为 什么 有 人 希望 硬盘 容量 超过 100MB。 Microsoft 
Windows 已 经 呼之欲出 了 ， 等 着 说 出 第 一 个 词 : feed me ! 今天 的 便 盘 容 量 已 经 超过 了 3TB， 
是 的 ， 那些 人 却 还 在 问 是 不 是 真 的 需要 更 大 的 容量 。 一 幅 未 压缩 的 高 分 辨 率 数 字 相 片 会 超过 
100MB ; 摄像 机 拍摄 的 一 小 段 视频 很 快 就 能 用 掉 300MB。 计 算 的 历史 上 从 来 没有 停止 过 对 
更 大 的 存储 容量 、 更 强 的 性 能 、 更 高 的 带宽 和 更 低 延 迟 的 追求 。 当 然 ， 一 些 新 技术 ， 比 如 云 
计算 ， 允 许 个 人 设备 将 数据 远程 地 保存 在 云端 ， 从 而 改变 了 带宽 和 容量 的 关系 。 

本 章 第 一 部 分 介绍 了 一 些 需 要 高 性 能 和 大 容量 的 计算 领域 。 通 过 介绍 计算 机 图 形 学 、 数 
字 信 号 处 理 、 图 像 压缩 等 概念 说 明 今天 的 计算 机 所 执行 的 操作 的 特点 。 本 节 的 目的 不 是 向 学 
生 们 讲授 如 何 实 现 图 形 操作 或 设计 MPEG 解码 器 ， 而 是 解释 为 什么 一 些 应 用 对 计算 能 力 有 
如 此 大 的 需求 ， 以 及 究竟 是 什么 值得 计算 机 设计 者 向 其 指令 系统 中 加 入 多 媒体 扩展 指令 。 

多 媒体 应 用 有 些 共同 的 特点 ; 包括 并 行 地 对 一 组 基本 数据 元 素 进 行 的 简单 操作 。 这 些 操 
作 叫 作 短 向 量 操作 。 本 章 的 大 部 分 内 容 介绍 了 半导体 制造 三 商 如 何 将 短 向 量 操 作 集 成 在 其 处 
理 器 的 指令 系统 中 。 我 们 从 Intel multimedia extensions ( MMX) 开始 ， 然 后 介绍 它 的 一 些 更 
新 的 版 本 ， 现 在 叫 作 streaming extensions (SSE)， 由 Intel 和 其 他 系列 处 理 器 实现 。 


5.1 高 性 能 计算 应 用 

在 设计 指令 系统 时 ， 必 须 确 定 指令 集中 应 含有 哪些 数据 处 理 操 作 。 显 然 , 加 、 减 、 乘 、 
除 以 及 移 位 等 日 常 的 整数 算术 运算 显然 是 必需 的 。 但 并 不 是 所 有 这 些 操作 都 是 必需 的 。 例 
如 ， 乘 法 和 除法 都 可 以 通过 加 / 减 和 移 位 实现 。 早 期 的 微 处 理 器 并 没有 提供 乘法 和 除法 。 程 
序 员 必须 自己 编写 乘法 和 除法 例 程 。 即 使 在 今天 ， 也 不 是 所 有 微 处 理 顺 都 支持 除法 。 我 们 的 
下 一 步 是 问 问 算术 运算 会 出 现在 计算 的 何 处 。 

人 们 最 初 制造 数字 计算 机 是 为 完成 科学 (数学 表格 )、 军 事 (野战 炮火 力 表 ) 和 商业 应 
用 中 的 数值 计算 。 尽 管 20 世纪 六 七 十 年 代 的 一 些 计算 机 是 为 科学 计算 而 设计 的 ， 但 是 大 
部 分 大 型 机 都 用 于 商用 数据 处 理 ， 它 们 并 不 需要 科学 家 在 大 气 等 模型 系统 所 用 的 高 速算 术 
计算 。 





| 用 乘法 实现 除法 

| 作为 一 个 使 用 其 他 指令 实现 除法 的 例子 ， 请 考虑 下 面 用 乘法 、 加 法 和 移 位 实现 乘法 
| 的 迭代 过 程 。 

| ”假设 被 除数 为 NW， 除数 为 D， 商 为 QO， 即 O = NID。 首 先 ， RD 的 值 将 其 左 移 或 右 
| 移 , 使 得 1/2 <D<1, 定义 Z=1 一 D， 此 时 0<Z 三 1/2。 将 除法 修改 为 @=N/D = KMKD。 
| BHR K=14+Z, AZ 
| N N(1+2Z) N ( 1+2) N (142) 


Tan DIN e EZRA ie 


如 果 现 在 用 及 = (142) 重复 这 个 过 程 ， 有 





2 Hz 1-z* 


onl ei iil AN AE ear 
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| 这 一 过 程 可 以 被 重复 次， 结果 为 
se HO Me eee 
D ie} 


由 于 QZ<1， 随 着 元 的 增 大 Z2 的 值 将 接近 于 0， 因 此 为 
Q=N (14Z)(14Z7 )( 1+2 )-…( 142") 


的 结果 ， 当 除数 被 缩放 为 1/2 与 1 之 间 时 ， 按 照 上 面 公 式 所 计算 得 到 的 相应 的 商 O， 也 
| 必须 被 缩放 同样 的 倍数 。 
下 面 来 看 一 个 例子 。 假 设 要 用 这 种 方法 计算 O = 7/9。 如 果 每 个 数 都 缩小 到 原来 的 
| 1/10, "T4 Q= N/D =0.7/0.9, HZ=1-D=1-09=0.1, MÆTT Q =0.7(1 + 0.1) + 
0.15 (1 + 0.1%) (1 + 0.16- = 0.7 x 1.1 x 1.01 x 1.0001 x 1.000001 = 0.7777785。 而 .7/.9 的 
际 结 果 为 0.77777777777777。 只 用 3 AERA AT TAS 5 位 十 进 制 精度 。 
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20 世纪 80 年 代 早 期 的 个 人 计算 机 革命 与 科学 应 用 和 数据 处 理 无 关 。 个 人 计算 机 可 以 使 
人 们 在 家 里 完成 字 处 理 、 保 存 个 人 信息 以 及 打 游 戏 。 这 些 应 用 起 初 并 不 需要 密集 的 数学 运算 。 
例如 ， 使 用 固定 字 宽 字体 (比如 Courier) 的 字 处 理 很 容易 实现 ， 因 为 相 邻 的 两 个 字 之 间 的 间 
距 都 是 0.1 英寸 。 要 向 一 个 文本 串 中 插入 4 个 字符 ， 所 有 其 他 字符 都 应 移动 0.4 英寸 。 随 着 
字 处 理 技 术 的 发 展 以 及 非 等 宽 字体 的 出 现 (例如 Times 和 Arial)， 插 入 或 删除 一 个 字符 都 需要 
非常 多 的 算术 操作 ， 以 便 在 修改 时 重 排 文 本 。 当 考虑 到 字 距 调整 ( 当 一 组 特定 的 字符 出 现时 ， 
比如 V 和 M， 改变 字符 间距 ) 时 会 更 复杂 。 这 一 时 代 的 计算 机 游戏 对 数学 运算 的 需求 更 高 。 

下 面 来 看 看 计算 机 图 形 学 是 如 何 提出 高 性 能 计算 需求 的 。 请 记 住 我 们 并 不 是 要 开设 一 门 
有 关 计 算 机 图 形 学 或 现代 计算 机 应 用 其 他 方面 的 课程 。 本 节 将 首先 说 明 高 性 能 计算 的 瓶颈 在 
哪里 ， 然 后 再 介 AEA T EN 传统 指令 集 需 要 进行 怎样 的 改进 。 

计算 机 图 形 

我 们 从 说 明 为 什 么 计算 机 图 形 学 是 一个 有 这 样 要 求 的 应 应 用 开始 。 将 三 维 对 象 作 为 多 边 形 
建 模 ， 并 沿 着 3 个 坐标 轴 中 的 一 个 转换 (移动 )、 缩 放 和 旋转 。 图 5-1 描述 了 一 个 点 绕 着 坐标 
轴 的 旋转 ， 并 给 出 了 相应 的 旋转 答 阵 ， 它 将 作用 于 被 旋转 物体 中 的 每 一 个 点 上 。 如 果 一 个 点 
绕 着 所 有 3 个 轴 旋 转 ， 它 将 进行 全 部 3 个 变换 。 


| 
| 对 于 8 位 精度 ,，n 只 需 为 3 即 可 ,并 且 如 果 n=5， 商 的 精度 为 32 位 。 为 了 得 到 所 需 
| 
| 


¥ 

AS a 

X 之 X X : 

7 i 

Z yA Z = 

a) 绕 蕊 轴 旋 转 b) 绕 工 轴 旋 转 c) HZ Hie o 
1 0 0 0 cos? 0 -sin@ 0 cosg sing 0 0 
0 cos? cos 0 0 ] 0 0 -sinf cos? 0 0 
0 -SmO cosO 0 sinð 0 cosO 0 0 0 1 0 
0 0 0 1 0 0 0 1 0 0 0 1 


图 5-1 三 维 旋转 


计算 机 图 像 只 是 实际 图 像 的 近似 ， 其 中 的 对 象 都 作为 多 边 形 建 模 ; 多 边 形 越 多 ， 图 像 越 精 
确 。 现 代 计 算 机 使 用 上 万 个 多 边 形 表示 一 幅 图 像 。 修 改 一 个 帧 需要 对 所 有 这 些 多 边 形 的 每 一 个 
顶点 进行 一 次 矩阵 变换 ， 这 实际 上 代表 了 非常 多 的 计算 。 这 些 计算 仅 涉及 加 法 、 减 法 和 乘法 。 


两 个 矩阵 相 乘 
for (int i=0; i < a; i++) 
for (int j=0; j < b; j++) 
Pfil(j] = 0; 
for (int k=0; k < c; k++) 
P[i] (j]+= QU] [k] * Rik) [j]; 





第 一 代 计 算 机 图 形 学 是 很 原始 的 ， 它 所 给 出 的 世界 的 视图 完全 不 符合 实际 。 第 二 代 图 形 
学 好 了 很 多 ， 比 如 20 世纪 90 年 代 中 期 在 高 性 能 个 人 计算 机 中 ， 能 够 生成 精美 的 运动 图 像 。 
但 即便 这 样 的 系统 也 无 法 产生 真实 图 像 。 对 真实 对 象 建 模 需要 两 个 重要 元 素 一 一 光线 和 纹 
理 。 人 们 之 所 以 能 观察 并 看 到 一 个 场景 ， 是 因为 它 被 照 亮 了 。 光 源 比 如 太阳 会 产生 光线 ， 光 
线 经 过 场景 中 的 每 一 个 点 然后 抵达 人 有 眼 。 场 景 中 每 一 个 点 所 反射 出 的 光 的 总 量 取决 于 光源 和 
观察 者 之 间 的 角度 、 对 象 的 纹理 以 及 光源 自身 的 特点 ; 若 要 生成 一 幅 真实 的 图 像 ， 必 须 模拟 
出 它 最 原始 特征 。 

一 个 真实 的 系统 必须 考虑 间接 照射 和 直接 照射 。 一 道光 线 在 抵达 人 眼 之 前 ， 可 能 先 经 过 
一 个 反射 物体 ， 然 后 再 经 过 场景 中 的 一 个 对 象 。 因 此 ， 我 们 看 到 的 物体 既 来 自 光源 的 直接 
照射 ， 也 来 自 散射 光 的 间接 照射 。 图 5-2 显示 了 两 个 圆 被 填充 并 被 点 光源 照射 以 生成 带 有 表 
面 纹理 的 球体 效果 的 情形 。 这 两 个 球体 的 唯一 区 别 在 于 定义 圆 的 填充 方式 和 光源 位 置 的 参数 
不 同 。 

计算 机 通过 光线 追踪 来 处 理光 照 。 图 5-3 中 有 一 个 光源 、 一 个 视 区 、 一 个 物体 以 及 一 个 
观察 者 。 光 源 发 出 的 光线 沿 着 各 个 方向 向 外 发 射 ， 其 中 一 部 分 会 照 到 物体 上 。 照 射 到 物体 上 
的 一 道光 线 会 按照 光学 定律 被 反射 出 去 ， 并 通过 
视 区 进入 观察 者 的 眼中 。 光 线 穿 过 视 区 的 那 一 点 
的 光 强 被 映射 到 显示 设备 中 对 应 的 像素 上 。 为 了 
计算 每 个 像素 的 颜色 和 光 强 ， 必 须 从 光源 开始 跟 
踪 每 一 道光 线 。 

重要 的 是 那些 最 终 进入 人 眼 的 光线 。 实 际 的 
光线 追踪 算法 进行 相反 的 操作 ， 从 人 有 眼 和 视 区 开 





始 。 最 终 进 入 人 眼 的 光线 穿 过 视 区 ， 抵 达 人 了 眼 可 光源 物体 
见 的 物体 。 离 开 物 体 的 光线 被 追踪 回 光 源 。 ~~ 
对 象 的 颜色 取决 于 物体 反射 出 的 光线 以 及 光 


源 的 颜色 。 要 计算 离开 一 个 物体 的 光线 的 颜色 很 Pe 
难 ， 因 为 物体 的 表面 并 不 都 是 像 镜子 一 样 遵循 简 7 

单 的 反射 定律 。 真 实 对 象 表面 的 粗 料 度 各 不 相同 。 像素 

当 光 照射 到 一 个 粗糙 的 表面 上 ， 它 会 被 反射 出 去 Fa ai 
或 沿 着 许多 方向 被 散射 出 去 ， 形 成 一 个 弥漫 性 的 ”内 

锥 形 光 。 有 些 物 体 是 透明 的 ， 光 线 可 以 穿 过 它们 R 

传播 。 当 光 穿 过 一 个 介质 进入 另 一 个 的 时 候 ( 例 图 5-3 ”光线 追踪 
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如 从 空气 进入 玻璃 ) 会 发 生 折 射 或 弯曲 。 光 线 追 踪 时 考虑 到 真实 物体 的 属性 是 有 可 能 生成 真 
实 图 像 的 ， 尽 管 这 需要 大 量 计算 。 

绘制 图 像 、 处 理 图 像 、 处 理 纹理 、 反 射 和 折射 都 需要 大 量 算术 运算 。 其 中 绝 大 多 数 都 是 
加 法 和 乘法 ,非常 适合 后 面 将 要 介绍 的 短 向 量 操作 。 不 过 ， 还 应 该 指出 ， 数 字 图 像 处理 所 需 
的 大 量 算术 运算 导致 了 专用 图 形 图 像 处 理 器 的 发 展 ， 现 在 它们 已 被 集成 到 显卡 中 。 下 一 节 将 
介绍 图 像 处 理 所 需 的 一 些 操 作 的 特点 。 

近年 来 ， 计 算 机 图 形 学 取得 了 巨大 的 进展 ， 必 须 能 够 应 对 需要 大 量 实时 处 理 的 高 分 辩 率 
显示 的 需求 。 对 CPU 计算 能 力 的 需求 大 大 增加 以 致 一 些 图 形 处 理工 作 已 经 从 CPU 转移 到 显 
卡 中 的 图 形 处 理 单元 (Graphic Processing Unit, GPU) 上 完成 。 


5.1.1 图 像 处 理 


除了 处 理由 多 个 可 以 分 别处 理 的 图 形 所 组 成 的 图 像 外 ， 人 们 还 必须 处 理由 像素 组 成 的 复 
杂 图 像 ; 这 类 图 像 由 数码 相机 生成 并 且 后 来 又 由 Photoshop® 那样 的 应 用 程序 处 理 。 为 了 说 
明 数 字 图 像 处 理 的 特点 ， 下 面 来 看 看 所 有 图 像 处理 软 件 包 都 会 提供 的 两 个 操作 实例 : 噪声 过 
滤 和 对 比 度 增 强 。 

1. 噪声 过 滤 

首先 来 看 看 噪声 。 来 自 相 机 视频 传感器 的 图 像 会 受到 噪声 或 随机 信号 的 影响 。 每 个 传 感 
器 单元 都 会 由 于 光线 落 在 它 上 面 而 生成 一 个 信号 (需要 的 信号 )， 并 且 由 于 传感器 中 充电 电 
子 的 运动 而 生成 一 个 随机 信号 (不 需要 的 噪声 )。 当 信 噪 比较 低 时 ， 噪 声 在 低 光 照 水 平时 的 
影响 很 大 。 噪 声 被 称 作 雪花 ， 因 为 它 由 随机 斑点 组 成 。 减 少 噪声 影响 的 一 种 方法 是 以 当前 像 
素 为 中 心 的 mxm 像素 区 域 的 平均 值 。 如 果 当 前 像素 的 亮度 高 于 或 低 于 这 个 平均 值 ， 它 的 值 
将 被 调整 ， 使 其 更 接近 平均 值 。 一 个 比 它 的 邻居 结 点 亮 得 多 或 暗 得 多 的 像素 ， 在 将 其 亮度 调 
整 为 平均 值 之 后 ， 就 不 再 那么 突出 了 。 这 一 操作 将 一 个 接 一 个 像素 应 用 于 整 幅 图 像 ， 将 像素 
的 值 与 它 的 8 个 近邻 的 值 相 加 (在 缩放 以 确定 降 品 级 别 之 后 )， 然 后 对 结果 进行 归 一 化 处 理 。 
每 幅 图 像 要 进行 操作 的 总 数 十 分 庞大 一 一 每 个 像素 一 次 。 在 图 像 变 化 这 个 例子 中 ， 操 作 是 简 
单 并 且 重 复 的 。 


| 噪声 过 滤 的 变化 | 
| 实际 上 ， 有 几 种 算法 可 以 从 图 像 中 去 除 噪声 ， 其 中 某 些 算法 比 另外 一 些 更 加 有 效 。 
高 斯 噪声 滤波 器 对 邻居 像素 进行 高 斯 加 权 ， 而 不 是 对 局 部 像素 强度 进行 线性 平均 。 有 些 
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有 时 数码 相机 拍摄 的 图 像 对 比 度 很 低 ， 呈 现 出 均匀 的 灰 度 ， 特 别 是 在 光线 因 空气 中 的 灰 
尘 漫 反 射 而 对 比 度 降低 的 环境 下 飞机 所 拍摄 的 图 像 。 增 强 对 比 度 的 一 种 简单 方法 是 对 每 个 像 
素 的 亮度 进行 缩放 ， 强 制 一 幅 图 像 中 包含 所 有 亮度 级 别 。 如 果 a 和 4 分别 是 增强 后 图 像 中 像 
素 的 最 低 值 和 最 高 值 ，c 和 4 分 别 是 实际 图 像 中 像素 的 最 低 值 和 最 高 值 ， 则 可 通过 下 式 将 一 
个 旧 像 素 Poa 转换 为 新 值 

Piu Paame) 后 +a 
d-c 
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图 像 中 值 比 其 他 像素 低 很 多 或 高 很 多 的 单个 像素 会 对 缩放 效果 产生 不 利 影响 。 一 种 更 
好 的 进行 对 比 度 增强 的 方法 是 通过 检查 图 
像 中 的 所 有 像素 ， 并 绘制 某 个 特定 值 的 出 
现 次 数 来 建立 像素 值 的 直方 图 。 图 5-4 给 Eo, 


出 了 一 个 256 级 灰 度 低 对 比 度 图 像 的 直方 、 主 04 S 
图 。 纵 轴 表 示 每 个 像素 值 归 一 化 后 的 相对 : 
频率 。 0 i 255 

4 z JRE © 


正如 读者 从 图 5-4 中 所 看 到 的 ， 像 素 
值 的 范围 不 是 0 一 2$5， 而 是 大 约 50 一 
150。 也 就 是 说 ， 这 幅 图 像 中 最 亮 的 部 分 不 是 白色 ， 最 暗 的 部 分 也 不 是 黑色 。 可 以 重新 缩放 
直方 图 ， 使 其 像素 的 值 在 0 ~ 255 之 间 。 将 像素 值 重 缩放 到 一 个 更 大 的 范围 内 可 以 增强 对 
比 度 。 

3. 边缘 增强 > 

有 时 我 们 希望 物体 会 更 加 突出 (例如 树 上 的 叶子 )。 通 过 一 个 叫 作 边缘 增强 的 过 程 来 强 
调 其 边缘 可 以 做 到 这 一 点 。 它 检测 图 像 的 每 个 像素 ， 若 该 像素 是 一 条 边 的 一 部 分 则 改变 它 的 
值 。 图 像 增强 使 用 一 个 叫 作 卷 积 的 过 程 来 突出 高 频率 。 高 频 这 个 词 在 图 像 处 理 中 代表 强度 的 
快速 变化 ， 可 能 位 于 图 像 的 边缘 。 一 个 实现 边缘 增强 的 方法 是 将 给 定 像 素 为 中 心 的 mxm 像 
素 和 矩阵 与 男 外 一 个 矩阵 相 乘 以 增强 中 心 点 的 对 比 度 。 下 面 是 一 个 典型 的 边缘 增强 矩阵 : 


图 5-4 像素 密度 直方 图 


-] -9 =] 
-1 -1 -1 
图 5-5 是 一 幅 空 中 拍摄 的 低 对 比 度 图 像 ， 图 5-6 是 对 其 进行 增强 对 比 度 和 边缘 增强 之 
后 ， 效 果 得 到 大 幅 改 进 的 图 像 ， 





处 理 前 E 处 理 后 E 
图 5-5 直方 图 ， 增强 对 比 度 和 图 5-6 ”直方 图 ， 增强 对 比 度 和 
边缘 一 一 处 理 前 边缘 一 一 处 理 后 


我 们 再 一 次 看 到 多 媒体 应 用 需要 进行 (包括 乘法 、 加 法 和 减法 在 内 ) 的 大 量 简单 、 常 规 
和 重复 的 操作 。 除 法 有 时 也 是 必需 的 ， 但 通过 按 比例 缩放 或 其 他 一 些 技术 ,对 除法 的 需求 大 





大 减少 了 一 一 实际 上 ， 通 过 使 用 乘法 和 5.1 节 介 绍 的 迭代 算法 ， 对 除法 的 需求 大 大 减少 了 。 
4. 有 损 压缩 


下 面 来 介绍 处 理 能 力 最 重要 的 应 用 之 一 一 一 图 像 压缩 技术 ， 可 以 用 图 像 压缩 技术 来 减 小 
音频 和 视频 文件 的 大 小 。 有 些 图 像 压 缩 机 制 是 无 损 的 ， 因 为 获得 数据 、 压 缩 数 据 、 再 将 其 解 
压缩 ， 最 后 的 结果 与 最 初 的 完全 一 致 (例如 zip 文件 )。 可 获得 的 数据 压缩 率 的 上 限 取 决 于 
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数据 中 的 元 余 (重复 ) 程度 。 实 际 上 ， 真 正 的 随机 数据 是 根本 无 法 被 压缩 的 ， 因 为 没有 要 删 
除 的 元 余 信息 。 

如 果 可 以 接受 一 定 的 信息 损失 ， 那 么 数据 可 以 被 高 度 压缩 。 如 果 使 用 有 损 压缩 技术 将 一 
幅 图 像 数 字 化 ， 那 么 损失 部 分 信息 对 于 这 幅 图 像 的 可 感知 质量 没什么 影响 。 有 损 压缩 依赖 
人 类 认 知 的 本 质 ， 即 有 的 时 候 人 们 可 以 发 现 信 息 质 量 的 微小 下 降 ， 而 有 时 大 量 信息 丢失 也 
\ 会 引起 人 们 的 注意 。 例 如 ， 人 眼 对 光亮 度 (光照 或 亮度 的 等 级 ) 的 感知 比 对 色 度 的 敏感 得 
多 。 因 此 ， 电 视 画 面 的 颜色 细节 可 以 比 亮度 差 很 多 一 一 前 提 是 图 像 质量 是 可 接受 的 。JPEG、 
MPEG 和 MP3 是 三 项 最 重要 的 数据 压缩 技术 ， 下 面 将 分 别 介绍 。 

5. JPEG 

尽管 已 经 有 了 许多 有 损 压 缩 算法 ,JPEG (用 于 压缩 静态 图 像 )MPEG (用 于 压缩 动态 图 像 ) 
Al MP3 (用 于 压缩 声音 ) 是 其 中 最 知名 的 3 种 。 

JPEG 是 Joint Photographic Expert 






Group (联合 图 像 专家 小 组 ) 的 缩写 ， 这 nm WRR 
个 组 织 是 为 了 标准 化 压缩 算法 而 建立 的 。 ng 
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域 ， 过 滤 该 域 中 的 信息 (有 损 部 分 )， 然 后 
使 用 无 损 压 缩 技术 减少 依然 较 大 的 文件 体积 用 64 OLDE PP 
等 步 又 来 压缩 静态 图 像 。 ee 

图 5-7 描述 了 JPEG 压缩 的 处 理 步 又 。 
源 图 像 已 被 数字 化 并 被 转换 为 一 个 像素 逢 


a ni 生成 最 终 的 系数 序列 重 排序 
阵 。 每 个 源 像素 为 8 位， 保存 了 0 一 255 范 JPEG 代码 


围 内 的 亮度 等 级 。 彩 色 图 像 被 分 为 多 层 ， 每 图 5-7 JPEG 压缩 
层 包含 一 个 主要 颜色 的 像素 信息 。 
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JPEG 压缩 从 将 图 像 分 解 为 大 小 为 8 x 8 像素 块 开始 (8 x 8 的 矩阵 大 小 是 速度 、 精 度 以 
及 计算 复杂 度 等 多 种 因素 折 中 后 的 结果 ) 然后 ， 将 每 个 64 像素 的 块 从 空域 信息 转换 为 时 域 


信息 。 


标注 为 DCT (离散 余弦 变换 ) 的 方 框 将 时 域内 的 点 转换 为 频 域 内 的 ; 也 就 是 说 ， 它 
将 一 组 点 转换 为 一 组 频率 。 从 频 域 内 的 数据 中 删除 宛 余 比 从 时 域内 删除 容易 得 多 。 


源 图 像 位 于 空域 之 中 ， 简 单 地 说 就 是 那些 组 成 源 图 像 的 像素 ， 而 源 图 像 被 映射 到 显示 屏 
空间 或 纸 上 。 频 域 则 由 波形 组 成 。 很 长 一 段 时 间 以 来 ， 时 域 和 频 域 间 的 转换 在 音效 工程 中 十 
分 常见 。 例 如 ， 傅 里 叶 变 换 可 以 将 任意 波形 分 解 为 无 穷 多 个 不 同 振幅 的 正弦 波 和 余弦 波 。 将 
时 变 波形 转换 为 一 组 正弦 波 则 可 以 进行 特定 类 型 的 信号 处 理 ， 比 如 删除 乙烯 盘 上 的 痕迹 。9 

相同 的 域 间 转 换 过 程 可 以 应 用 于 空域 中 的 8 x 8 像素 矩阵 。 可 以 定义 64 个 离散 余弦 变换 
( Discrete Cosine Transform, DCT) 基本 函数 ， 并 用 它们 构建 一 个 8 x 8 像素 的 图 像 。 图 5-8 
描述 了 这 64 个 基本 函数 。 


日 ”从 前 音乐 通常 被 记录 在 黑色 塑料 盘 的 螺旋 轨道 上 ， 直 到 数字 媒体 的 发 明 。 数 据 作为 声音 震动 ( 即 它 是 模拟 介 
质 ) 以 止 痕 的 形式 被 保存 在 轨道 平面 上 。 今 天 的 学 生 只 有 在 他 们 的 父母 或 祖父 母 那里 会 见 到 披 头 士 乐 队 的 乙 
烯 盘 唱片 。 
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| 一 个 8x8 像 素 矩 阵 可 被 分 解 为 这 64 人 个 DCT 基本 函数 的 和 ， 每 个 都 与 一 个 加 权 因 
子 相 乘 。 


任何 一 个 8x8 的 图 像 都 可 以 被 表示 为 图 5-8 中 所 有 基本 函数 的 加 权 和 。 也 就 是 说 ， 一 
个 8x8 亮 度 像素 矩阵 可 以 被 替换 为 一 个 8x8 的 每 个 基本 函数 系统 的 和 矩阵。 图 5-8 中 第 一 个 
函数 表示 8 x 8 像素 块 的 平均 亮度 ， 它 被 称 作 块 的 DC 级 别 。 

在 对 像素 块 进行 一 次 离散 余弦 变换 之 后 ， 可 以 得 
到 一 个 8x8 的 系数 矩阵 。 这 个 变换 不 会 影响 数据 集 
的 大 小 ; 我 们 所 做 的 只 是 将 空间 信息 转换 为 频率 信息 。 

不 过 ， 时 域 和 频 域 矩阵 之 间 存 在 着 很 大 的 不 同 。 
包含 DCT 系数 的 8 x8 和 矩阵 对 应 一 个 具有 重要 属性 的 
64 像素 数组 。DCT 系数 被 分 为 若干 组 ， 使 得 矩阵 左 
上 角 含 有 大 多 数 图 像 中 占据 绝对 多 数 的 低频 部 分 ， 而 
它 的 右 下 角 则 是 少 得 多 的 高 频 部 分 。 如 果 块 中 像素 的 
亮度 完全 一 致 (比如 天 空 或 树叶 的 一 部 分 )， 那 么 右 * 
下 角 的 大 部 分 系数 ， 对 应 于 那些 变化 非常 快 的 基本 函 
数 ， 值 会 非常 小 或 为 0。 换 句 话 说， 对 于 特定 类 型 的 
图 像 ， 变 换 后 矩阵 中 的 很 多 系数 都 是 0 或 接近 0， 并 
且 这 些 系数 都 集中 于 和 矩阵 的 某 一 区 域内 。 

下 一 步 是 量化 DCT 系数 ,将 64 个 DCT 系数 中 的 每 一 个 除 以 64 个 常数 中 的 一 个 。 这 一 
步 对 JPEG 压缩 影响 很 大 ， 正 是 它 使 得 压缩 是 有 损 的 。 表 5-1 中 的 量化 矩阵 列 出 了 JPEG 编 
码 中 使 用 的 64 个 常数 。 右 下 角 (DCT 和 矩阵 的 高 频 区 ) 的 元 素 值 要 大 一 些 。 除 一 个 较 大 的 数 
会 减少 对 应 DCT 系数 的 权重 。 实 际 上 ， 在 绝 大 多 数 时 候 ， 块 的 右 下 角 量 化 后 的 DCT 矩阵 都 
是 0。 删除 图 像 的 低频 部 分 对 人 们 观察 的 影响 要 比 删除 低频 部 分 的 影响 小 得 多 。 请 记 住 这 些 
(高 频 ) 系数 都 在 矩阵 的 右 下 方 ， 而 且 它们 的 值 通常 都 接近 0 ; 用 一 些 大 的 数字 除 它们 会 进 一 
步 降 低 它 们 的 重要 性 。 








表 5-1 JPEG 量化 矩阵 





第 一 个 系数 叫 作 DC 等 级 ， 反 映 了 当前 8 x 8 像素 块 的 平均 亮度 。 当 前 块 与 前 一 个 块 的 
差 值 将 被 记录 下 来 ， 而 不 是 这 个 平均 值 。 

DCT 系数 被 量化 之 后 ，8 x 8 矩阵 将 被 转换 成 为 一 个 64 x 1 的 向 量 ( 即 一 个 含有 64 个 系 
数 的 串 )。 这 个 系数 串 是 在 8 x 8 矩阵 中 选择 一 条 Z 形 路 径 而 得 到 的 ， 如 图 8-9 所 示 。 这 一 步 
将 能 量 〈 即 较 大 的 系数 ) 集中 在 向 量 的 一 端 。 例如， 这 个 向 量 可 能 是 0.2, 0.7, 0.4, 0.9, 0.3, 
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0:5; 0.1, 6:05, 0, 0, 0, ~~, Oo 

因为 量化 和 重 排序 后 的 DCT 系数 向 量 中 很 有 可 能 只 含有 少数 
非 零 系数 和 大 量 的 零 ， 使 用 游程 编码 可 以 压缩 这 个 含有 64 个 元 素 
的 向 量 。 向 量 被 编码 为 一 个 (skip, value) 对 的 序列 ， 这 里 skip 为 
被 省 略 的 零 的 个 数 而 value 是 下 一 个 非 零 值 。 该 序列 最 后 的 值 为 
0, 0。JPEG 编码 的 最 后 一 步 是 对 游程 编码 的 结果 进行 哈 夫 曼 编码 。 
哈 夫 曼 编码 是 一 种 游程 编码 技术 ， 它 为 信息 中 频繁 出 现 的 值 分 配 
较 短 的 编码 ， 而 为 出 现 频 率 较 低 的 值 分 配 较 长 的 编码 。 

6. MPEG 图 5-9 JPEG DCT 系数 按 

数字 视频 编码 标准 MPEG-1 ~ MPEG-4 (Moving Picture Z 形 路 径 重 排序 
Experts Group ， 运 动 图 像 专家 小 组 ) 是 现代 数字 工程 的 巨大 成 就 之 一 ， 能 够 以 超过 100 的 比 
率 压 缩 运动 图 像 ， 压 缩 后 的 图 像 完 全 适合 传输 或 被 保存 在 DVD、 硬盘 、 甚 至 随身 存储 器 中 。 
最 早 的 MPEG-1 标准 于 1991 年 完成 ， 其 目标 是 CD 上 1.5Mbps 的 位 速率 的 视频 存储 。1994 
年 ,发布 了 MPEG-2, X} NTSC 和 PAL 编码 的 电视 信号 进行 编码 。 该 标准 也 称 作 ISO 13818 
标准 和 国际 电信 联盟 H.262 标准 。 

可 以 对 运动 图 像 进行 两 种 压缩 : JPEG 所 用 的 空间 压缩 ， 以 及 时 间 压 缩 ， 它 利用 了 连续 
的 电影 或 电视 图 像 几乎 是 相同 的 这 一 实际 情况 。 和 JPEG 一 样 , MPEG 也 进行 离散 余弦 变换 ， 
通过 消除 元 余 来 压缩 图 像 。 但 是 ，MPEG 还 具有 动态 的 特点 ， 因 为 它 会 检查 两 个 连续 帧 并 消 
除 其 中 的 元 余 。 例 如 ， 一 个 视频 场景 是 静态 的 ， 其 中 没有 物体 移动 ， 后 面 的 帧 也 是 一 样 的 。 
MPEG 编码 不 会 一 次 又 一 次 地 传送 同样 的 帧 。 像 其 他 运动 图 像 一 样 ， 视 频数 据 也 是 作为 一 系 
列 帧 被 传输 的 。I- WIAD Ww, EAR JPEG 图 像 一 样 被 压缩 。P- 帧 是 预测 编码 帧 ， 描 述 了 新 
帧 与 前 一 帧 之 间 的 差别 。B- 帧 是 男 一 种 形式 的 预测 编码 帧 ， 有 使 用 向 前 或 向 后 插值 两 种 选 
择 。B- 帧 编码 效率 好 ， 对 于 运动 物体 显示 隐藏 区 域 的 场景 效率 更 高 。 这 些 帧 可 被 分 为 I- 帧 、 
P- 帧 和 B- 帧 。 一 个 典型 的 帧 编码 序列 可 能 是 I， B, B, P, B, B, I, B, B, P,… 

为 了 完成 MPEG 编码 和 解码 ， 必 须 对 每 个 帧 进行 JPEG 那样 的 实时 压缩 ， 并 且 将 后 续 帧 
保存 起 来 以 进行 预测 (或 差分 ) 编码 。 这 要 求 在 短 时 间 内 完成 大 量 计算 。 前 些 年 ， 还 必须 购 
买 专用 硬件 来 处 理 此 类 工作 负载 。 今 天 ， 高 性 能 处 理 器 已 经 可 以 独立 编码 和 解码 MPEG 数 
据 了 。 实 际 上 ，iPad 等 设备 中 的 处 理 器 能 够 很 好 地 处 理 MPEG 图 像 。 

7. MP3 

MP3 相当 于 音频 处 理 中 的 JPEG 标准 ， 用 于 压缩 音频 。 这 个 算法 是 如 此 的 普及 ， 以 至 
于 一 个 设备 无 论 是 否 使 用 MP3 编码 都 可 以 被 称 为 MP3 播放 器 。 现 在 MP3 编码 已 有 几 种 不 
同 的 选择 ， 比 如 WMA ( Windows Media Audio) 和 高 级 音频 编码 ( Advanced Audio Coding， 
AAC). 

1987 年 ， 德 国 弗 朗 霍 夫 研 究 所 开始 开发 一 种 用 于 数字 音频 广播 (Digital Audio 
Broadcasting, DAB) 的 感知 编码 方案 。 他 们 所 开发 的 压缩 技术 称 为 ISO-MPEG Audio 
Layer-3， 现 在 被 缩写 为 MP3。 这 一 压缩 算法 可 将 传输 和 存储 数字 音频 所 需 的 位 速率 减 小 到 
十 分 之 一 或 者 更 多 。 一 种 低 质量 的 电话 通过 在 8kps 位 速率 下 的 压缩 比 几 乎 为 100:1， 而 CD 
质量 的 声音 在 96kHz 位 速率 下 的 压缩 比 为 16:1。 

正如 JPEG 删除 了 图 像 中 的 高 频 信 息 那 样 ，MP3 删除 了 对 整个 声音 影响 较 小 的 那些 部 
分 一 一 只 要 人 们 察觉 不 到 即 可 。MP3 采用 了 心理 声学 编码 技术 ， 因 为 它 完 全 依赖 人 们 听 到 声 





一 
4 
7 
Vá 
VA 
Yá 
/) 
E 


LYNAANAANS 
INNAAAANY 
LYAAANAANS | 
I NAARAANY 
En 


z | 
A 
VA 
Vá 
VA 
M 
9 


o 


238 BORD HERA IHI 


音 的 方式 。 

每 个 人 都 听 说 过 “和 静 得 连 针 掉 到 地 上 都 听 得 见 ” 这 句 话 。 弗 朗 霍 夫 研究 所 的 科学 家 在 
MP3 解码 中 利用 了 这 一 现象 。 在 一 个 嗜 杂 的 环境 中 我 们 没 办 法 听 出 针 落 地 的 声音 ， 因 此 ， 
可 以 将 这 部 分 声音 从 音频 信号 中 删除 而 音质 不 会 有 明显 的 降低 。 

巨大 的 声音 会 掩盖 安静 的 声音 ， 因 为 若 有 巨大 的 声音 存在 时 ， 人 们 不 会 注意 到 低 强 度 声 
音 。 假 设 我 们 向 一 个 1.2kHz 0 分 贝 的 信号 中 添加 一 个 1.1kHz -20 分 贝 的 信号 (新 增加 的 这 
个 信号 的 能 量 仅 为 1.1kHz 那个 信号 的 低 1/10 )。 增 加 这 个 信号 后 对 整个 声音 没有 什么 影响 。 
但 是 ， 如 果 增 加 一 个 4kHz -20 分 贝 的 信号 ， 人 们 将 会 注意 到 这 个 信号 ， 因 为 信号 之 间 较 大 
的 频率 差 会 使 人 的 大 脑 检测 到 其 中 频率 更 高 的 那个 信号 ， 即 使 它 的 强度 更 低 。MP3 采用 类 
似 的 技术 编码 立体 声 信 号 。MP3 没有 使 用 完全 独立 的 左 声 道 和 右 声 道 ， 而 是 使 用 了 一 个 包 
含 左右 声 道 之 和 (L+R) 9222 (L-R) 的 中 间 声 道 ， 中 间 声 道 可 被 用 来 重建 立体 声效 果 。 

MP3 编码 器 将 数字 化 后 的 声音 信号 分 为 32 个 不 同 的 频率 段 。 它 用 一 种 改进 的 离散 余弦 
变换 完成 频率 段 的 划分 处 理 。 接 着 ， 使 用 一 个 心理 声学 模型 (编码 器 中 内 置 的 ) 来 压缩 每 个 
段 的 信号 能 量 。 编 码 器 接 下 来 将 32 个 过 滤 体 的 输出 集中 到 一 个 帧 里 。 由 于 掩 膜 (masking) 
效应 ， 某 些 段 的 信息 内 容 会 减少 。 编 码 位 不 会 均等 地 分 配给 每 个 段 。 一 个 叫 作 “位 分 配 ”的 
过 程 将 决定 哪些 字段 应 该 收 到 用 来 编码 信号 的 位 。 

数据 本 身 用 哈 夫 曼 编 码 压缩 (出 现 越 频 繁 的 符号 编码 越 短 )。 因 此 ，MP3 先 使 用 有 损 的 
心理 声学 编码 方法 消除 对 整个 声音 没有 什么 影响 的 能 量 ， 接 下 来 使 用 哈 夫 曼 编码 删除 数据 中 
的 元 余 。 下 面 将 介绍 数字 信号 处 理 ， 它 被 用 于 包括 图 像 处 理 到 胎 心 监护 等 应 用 中 的 时 变数 据 
处 理 。 数 字 信 号 处 理 是 从 汽车 引擎 到 飞机 自动 着 陆 系统 等 所 有 现代 控制 系统 的 核心 技术 。 

8. 数字 信号 处 理 

数字 信号 处 理 (DSP) 在 ACM/IEEE CC2005 中 被 描述 为 “处 理 数字 滤波 ， 时 间 和 频率 
转换 ， 以 及 处 理 模 拟 信号 的 其 他 数字 方法 的 计算 领域 ” 。DSP 一 般 不 属于 计算 机 体系 结构 教 
材 的 内 容 ， 而 且 绝 大 多 数 计 算 机 科学 和 信息 技术 专业 的 学 生 也 是 不 学 习 DSP 的 。 然 而 ， 对 
于 今天 的 所 有 计算 应 用 ，DSP 也 许 是 最 重要 的 。 


DSP 5 CAT 

数字 信号 处 理 最 早 的 应 用 之 一 是 处 理 一 组 每 条 都 拍 自 一 个 不 同 的 角度 的 义 射线 ， 以 
建立 三 维 模型 。 完 成 这 一 工作 的 机 器 叫 作 CAT (计算 机 轴 向 断层 扫描 ) 扫描 仪 , 1979 年 ， 
它 的 两 个 主要 贡献 人 Hounsfield 和 Cormack 获得 了 诺 贝 尔 医学 奖 。 





DSP 是 计算 机 科学 (计算 机 工程 ) 的 一 个 分 支 ， 处 理 和 解释 来 自 心 电 图 仪 (EKG)、 核 磁 
共振 成 像 (MRI) 扫描 仪 、 地 震 仪 、 超 声 扫描 仪 、 石 油 钻 塔 (探测 时 ) 等 设备 的 信和 号。 这 些 
都 是 对 世界 经 济 以 及 卫生 保健 系统 非常 重要 的 应 用 。 

几乎 每 个 能 够 获取 模拟 信号 并 将 它们 转换 为 数字 形式 之 后 进行 处 理 的 系统 ， 都 可 被 视 作 
DSP 的 一 支 。 除 了 前 面 的 例子 ， 还 可 以 加 入 从 汽车 引擎 到 空 客 飞机 的 遥控 自动 驾驶 仪 计算 机 
等 应 用 。 本 节 将 只 介绍 DSP， 并 从 它 对 计算 机 体系 结构 的 影响 等 方面 进行 讨论 ， 例 如 ， 引 入 
了 乘 累 加 操作 或 确保 了 循环 的 高 效 。 导 致 公众 对 DSP 不 可 见 的 一 个 原因 在 于 ，DSP 要 求 理 
解 离散 傅 里 叶 变换 等 高 级 数学 知识 。 傅 里 叶 变 换 使 我 们 可 以 使 用 一 组 时 变 信号 ， 将 它们 转换 
为 频 域 中 的 信号 〈 请 回忆 JPEG 和 DCT)， 在 频 域 中 进行 处 理 ， 然 后 再 将 它们 转换 为 时 序 中 
的 信号 。 这 些 信 号 既 可 以 代表 语音 或 视觉 ， 也 可 以 是 随时 间 变 化 的 道琼斯 指数 ， 地 球 的 平均 
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温度 ， 一 座 大 坝 上 游 50 英里 处 的 降雨 ， 或 心脏 起 搏 器 采集 的 神经 冲动 。 

DSP 起 源 于 20 世纪 60 年 代 ， 当 时 人 们 设计 出 自 适 应 均衡 器 以 使 20 世纪 六 七 十 年 代 全 
球 基于 模拟 信号 的 电信 和 网络 的 传输 通路 带宽 最 大 化 。20 世纪 60 年 代 还 没有 高 速 宽带 光缆 ， 
并 且 公 共 电 话 交 换 数据 链 路 的 带宽 仅 有 3kHz。 


| 数字 信号 处 理应 用 
| 数字 信号 处 理 (DSP) 是 现代 数字 技术 中 应 用 最 广泛 的 一 种 。 数 字 信 号 处 理 可 由 伟 
| 统 处 理 器 、 带 有 面向 DSP 应 用 的 优化 指令 系统 的 专用 处 理 器 或 FPGA (可 编程 门 阵列 ) 
| 完成 。 典 型 的 DSP ÈMA: 
| E EA 

@ 数字 纸 

o 音频 系统 (MP3, AAC 译 码 、 均 衡 、 音 效 ) 

e 高 清 电视 

© 汽车 控制 (主动 悬挂、 引擎 控制 、 防 滑 ) 

© 磁盘 驱动 (脉冲 检测 信号 滤波 ) 

© 有 效 噪声 消除 


通信 网 络 中 的 均衡 器 与 Hi-Fi 系统 中 均衡 器 的 作用 基本 相同 ; 它 将 裁剪 信道 带宽 使 之 适 
应 环境 。 在 20 世纪 六 七 十 年 代 的 交换 电话 网 络 中 ， 当 通过 拨号 建立 起 不 同 的 路 由 时 ， 均 衡 
噩 必须 自动 适应 线路 特征 。 也 就 是 说 ， 均 衡器 必 





须 面向 随机 通信 路 径 进行 实时 优化 。 尽 管 均衡 理 
论 非常 复杂 ， 它 的 硬件 却 十 分 简单 。 图 5-10 用 传 i 
统 的 DSP 术语 和 符号 描述 了 数字 信号 处 理 的 基本 mun È 
元 件 。 AMS 
DSP 系统 使 用 信号 的 一 组 采样 值 。 例 如 ， 麦 图 5.10 一 个 DSp 块 的 基本 组 成 


克 风 将 选 出 一 个 模拟 信号 (比如 ， 声 音 ) 的 等 级 ， 

并 以 超过 40 000 次 /s 的 速率 进行 采样 。 这 些 采 样 值 可 以 乘 上 一 个 常数 或 变量 ， 并 在 单位 延 
迟 块 中 延迟 。 一 次 延迟 相当 于 一 个 时 钟 周 期 ， 代 表 延 迟 的 算术 操作 符 被 写 为 。 如 果 用 志 
变换 符号 写 下 表达 式 y, = 0.8x; + 0.2x; 1z ”十 0.1x; 2z *， 表 明 第 i 个 输出 yy 等 于 第 i 个 输入 x,， 
加 上 它 前 一 个 输入 x 的 0.2 信 以 及 输入 x ;的 0.1 售 。 

可 以 使 用 图 5-10 中 的 基本 DSP 模块 构建 发 送 或 阻止 一 定 范围 频率 的 数字 滤波 器 。 图 
5-11 描述 了 有 限 脉冲 响应 滤波 器 (Finite Impulse Response Filter, FIR), A 5-12 则 描述 了 无 
限 脉冲 响应 滤波 器 (Infinite Impulse Response Filter, IIR). 

FIR 和 IIR 在 结构 上 的 基本 差别 在 于 IIR 是 递归 的 ; 也 就 是 说 ， 其 输出 可 以 用 其 自身 定 
义 。 例如， 可 以 写 出 下 面 的 通用 表达 式 

Y= opt etas Hea + + Dp + bye? + 

FIR 和 IR 网 络 的 实际 差别 在 于 IIR 滤波 器 对 于 给 定 的 级 数 更 有 效 ， 但 它 很 难 设计 ( 即 
选择 正确 的 乘法 器 系数 )， 并 且 可 能 不 稳定 (可 能 会 在 特定 环境 下 振荡 )。 

当然 ， 数 字 信 和 号 处 理 器 的 正规 结构 使 它 很 容易 通过 专用 硬件 设计 ， 即 它们 很 容易 用 通用 
微 处 理 融 实现 ， 因 为 所 需要 的 操作 就 是 简单 的 加 法 、 乘 法 和 延迟 。 延 迟 是 通过 将 一 个 值 保存 
在 寄存 器 或 存储 单元 中 然后 读 出 来 实现 的 。 
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图 5-11 FIR 滤波 器 结构 
疝 前 路 径 





FER 
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递归 路 径 
图 5-12 IR 滤波 器 结构 
9. DSP 体系 结构 
请 回忆 数字 滤波 器 是 通过 下 式 实现 的 : 


p= xX" a 

它 的 关键 操作 是 重复 的 两 个 数 乘法 以 及 乘积 的 求 和 ， 这 意味 着 与 ARM 的 mua 相同 的 乘 
累加 操作 ( multiply-accumulate operation, MAC) 将 成 为 所 有 专用 DSP 体系 结构 的 显著 特 
征 。 同 样 ， 变 量 下 标 表明 向 量 处 理 能 力 非 常 重要 并 且 向 量 应 该 能 够 模拟 很 长 的 采样 值 序列 
(数据 流 )。 

20 世纪 80 年 代 ， 半 导体 制造 商 推出 了 第 一 代 专 用 DSP 处 理 器 。 例 如 ，20 世纪 80 年 代 
TI 推出 了 性 能 为 5 MIPS 的 TSM32010 可 编程 整数 DSP its Fr; Motorola 则 推出 了 56000 系 
列 。 表 5-2 列 出 了 这 两 个 第 一 代 DSP 处 理 器 的 部 分 特征 。 

表 5-2 两 款 早期 DSP 芯片 的 特征 


16 位 (累加 器 为 32 位 ) 24 位 (累加 器 为 56 位 ) 
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专用 DSP 是 针对 高 容量 、 低 价格 的 应 用 设计 的 ， 这 意味 着 它们 已 经 被 高 度 优化 (如 果 
没有 ， 它 们 与 传统 处 理 器 相 比 没有 任何 优势 )。DSP 体系 结构 具有 以 下 基本 特征 : 
专用 指令 集 一 一 支持 乘 累加 
哈佛 结构 一 一 分 离 的 指令 和 数据 通路 
多 个 存储 体 
专用 存储 器 访问 (例如 缓存 ) 以 合成 延迟 
支持 自 递增 寻 址 和 循环 模式 
缺少 多 用 户 操 作 系 统 支 持 以 及 存储 管理 能 力 
16 位 和 24 位 定点 运算 
没有 cache 

接 下 来 将 介绍 一 种 面向 数字 信号 处 理 系统 的 实现 而 专门 设计 的 微 处 理 右 一 一 SHARC 系 
列 微 处 理 器 。 这 些 DSP 处 理 器 面向 其 目标 应 用 进行 了 高 度 优化 ,并 提供 了 专门 的 指令 、 寻 
址 方式 、 甚 至 分 离 的 数据 / 指令 存储 器 ( 即 哈佛 体系 结构 )。 之 所 以 要 介绍 DSP 芯片 ， 是 因 
为 它 的 某 些 属 性 正在 被 传统 指令 系统 所 采纳 (例如 乘 累 加 操作 )。 

10. SHARC 系列 DSP 

本 节 有 很 多 可 以 作为 实例 的 专用 DSP。 之 所 以 选择 ADI 公 司 的 SHARC 是 因为 它 是 一 

款 经 历 了 时 间 考 验 的 DSP， 现 在 已 经 发 展 到 自 1994 年 发 布 以 来 的 第 四 代 。SHARC 的 某 些 

体系 结 吉 构 特征 在 今天 的 高 性 能 处 理 器 中 已 经 很 常见 了 。 


哈佛 结构 

术语 “哈佛 结构 ”是 指 Howard Aiken 制造 的 Harvard Mark 1 计算 机 或 自动 程序 控 
制 计 算 器 ， 它 于 1944 年 安装 在 哈佛 大 学 。 这 是 一 台 机 电 计算 机 。 

Harvard Mark 1 由 24 通道 纸 带 上 的 程序 控制 。 程序 与 数据 分 开 存 放 ， 与 将 程序 和 数 
据 保 存在 同一 一 存储 器 中 的 汉 诺 依 机 机 器 正好 相反。 AR, 哈佛 计算 机 通常 表示 程序 与 数 
| 据 分 开 存 放 的 计算 机 。 


Oo 


SHARC 使 用 并 充分 利用 了 哈佛 体系 结构 。 例 如 ， 通 过 将 数据 流 从 指令 流 中 分 离 ， EN 
以 实现 48 位 指令 和 32 位 整数 (BCH). SHARC 是 一 款 超 长 指令 字 (Very Long Instruction 
Word, VLIW) 处 理 器 ， 将 多 个 操作 编码 到 一 条 48 位 指令 中 ， 可 以 将 它 的 并 行 处 理 能 力 应 
用 于 多 个 数据 元 素 上 。SHARC 提供 了 整数 和 浮 点 运算 。 浮 点 使 用 扩展 的 40 位 算术 运算 以 及 
40 位 寄存 器 维护 链接 运算 时 的 精度 。32 位 整数 可 以 使 用 同样 的 寄存 器 。 

本 书 不 会 介绍 VLIW 处 理 器 和 并 行 的 细节 ， 本 节 主 要 说 明 计 算 机 应 用 如 何 影 响 指 令 系 
统 。SHARC 是 一 个 load-store 型 计算 机 ， 用 Ri = DM(<address>) 表示 载 人 寄存 器 操作 ， 而 
用 DM (<address>) = Ri 表示 store 操作 。 符 号 <address> 代表 任意 一 个 能 够 产生 有 效 地 址 的 
合法 表达 式 ， 而 DM 代表 数据 存储 器 ，PM 代表 程序 存储 器 。 例 如 ,ro = DM(I0,M0) zl = 
PM(I4,M4) 会 在 同一 周期 将 数据 从 数据 存储 器 和 程序 存储 器 载 人 寄存 器 r0 和 Trl (E post- 
indexed 寻 址 方式 )。 

SHARC 体系 结构 有 两 个 处 理 单元 ，PEx 和 PEy， 以 及 两 个 数据 地 址 生成 器 ，DAGI 和 
D4G2, 请 回忆 前 面 曾经 提 到 过 数字 信号 处 理 总 是 需要 使 用 基于 缓冲 的 循环 寻 址 ， 数 据 地 址 
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寄存 器 满足 DSP 应 用 的 特殊 寻 址 需要 。 两 个 数据 地 址 生成 器 中 的 每 一 个 都 会 记录 最 多 8 个 
指针 (以 及 它们 相关 的 基地 址 寄存 器 和 组 
冲 长 度 寄存 器 ) 。 图 5-13 描述 了 SHARC 
的 两 个 DAG 寄存 器 组 。I 寄 存 器 会 在 使 用 
后 修改 ， 并 且 会 被 M 寄存 器 更 新 。 例 如 ， 
表达 式 R4 = DM(11,M2) 表示 将 存储 地 址 I1 
处 的 数据 载 和 人 R4 中 ， 然 后 用 寄存 器 M2 更 
新 指针 。 

下 面 来 看 一 些 公共 的 整数 操作 。 标 准 
的 算术 和 逻辑 运算 都 是 必需 的 ， 此 处 仅 列 
出 一 些 更 加 有 趣 的 指令 。 

Rn = ABS Rx 将 Rx 中 整数 值 
的 绝对 值 保存 到 Rn 中 。 

Rn = MIN(Rx, Ry) 返回 两 个 整数 
Rx 和 Ry 中 较 小 的 一 个 。 结 果 保 存在 Rn 
中 。 图 5-13 SHARC 的 两 个 数据 地 址 生成 寄存 器 组 

Rn = MAX (Rx,Ry) 返回 两 个 整数 
Rx 和 Ry 中 较 大 的 一 个 。 结 果 保 存在 Rn 中 。 

Rn = CLIP Rx,BY Ry AFR Rx 中 操作 数 的 绝对 值 小 于 Ry 中 操作 数 的 绝对 值 ， 则 返回 

Rx 中 的 整数 值 。 否 则 ， 如 果 Rx 为 正 数 则 返回 |Ry|， 如 果 Rx 为 
负数 则 返回 -|Ry|。 

由 于 循环 是 DSP 最 重要 的 结构 之 一 ，SHARC 实现 了 一 个 使 用 专门 计数 寄存 器 的 专用 循 
环 操作 。 它 的 汇编 语言 形式 为 : 

LCNTR = n, DO loop UNTIL LCE: 

Loop: 

加 阴影 的 文字 分 别 表 示 循 环 常 量 和 用 户 定义 的 标号 。 而 未 加 阴影 的 文字 则 是 指令 本 身 的 
一 部 分 。LcNTR 代表 专用 的 循环 计数 寄存 器 ，LcE 表示 循环 计数 器 满 。 除 了 使 用 一 个 常数 表 
示 循 环 次 数 ， 还 可 以 用 诸如 LCNTR = R10,DO loop UNTIL LCE 等 语句 指定 一 个 寄存 器 保存 循 
环 次 数 。 还 请 注意 ，DO 之 后 的 值 可 以 是 一 个 标号 、 一 个 24 位 地 址 ， 或 者 一 个 相对 于 PC 的 
24 位 有 符号 偏 移 量 ( 即 相 对 地 址 )。 循 环 可 以 是 租 套 的 。 它 提供 了 多 个 循环 计数 器 ， 每 当 一 
个 循环 被 初始 化 后 ，LNcTR 将 被 保存 到 栈 中 ， 成 为 cvRLcNTR (当前 循环 计数 器 )。 

一 个 简单 FIR 数字 滤波 器 的 基本 C 代码 (忽略 循环 缓冲 ) 可 被 表示 为 : 


for (i = 0, i < m, i++) 
s = s + cli] * xli]; 


它 可 被 翻译 为 下 面 的 SHARC 代码 (忽略 循环 初始 化 操作 ): 


LCNTR = N, DO FIRloop UNTIL LCE: 
R1 = DM(I0,MO), R2 = PM(1I8,M8) 
FIRloop: R3 = R1*R2, R4 = R4 + R3 


在 讨论 了 一 些 完成 信号 处 理 、 图 形 和 图 像 处 理 的 操作 之 后 ， 本 章 后 面 的 内 容 将 关注 现 有 的 
CISC 和 RISC 体系 结构 扩展 ， 其 目的 是 支持 多 媒体 处 理 中 的 数据 元 素 类 型 和 操作 类 型 。 
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5.2 多 媒体 的 影响 一 一 重新 使 用 CISC 


到 了 20 世 纪 90 年 代 中 期 ， 有些 观察 员 认 为 ， 体 现在 MIPS、SPARC、ARM 和 
PowerPC 等 RISC 处 理 器 中 趋向 于 简单 的 发 展 趋势 将 意味 着 IA32 和 68K 系列 传统 CISC 
指令 集 的 终结 。 但 实际 上 ，68 开 系列 中 的 新 成 员 逐 步 丢 弃 了 其 体系 结构 的 一 些 复杂 特征 ， 
68060 的 指令 集 是 68020 的 简化 版 本 。Motorola 认为 ， 通 过 使 用 RISC 技术 并 用 软件 仿真 一 
些 复杂 指令 使 68060 内 部 结构 合理 化 ， 比 保留 全 部 68020 体系 结构 更 加 高 效 。 实 际 上 ， 随 着 
专用 指令 的 引入 ， 出 现 了 一 种 趋向 更 高 复杂 度 的 相反 趋势 。 





，SIMD 操作 

| 单 指令 多 数据 (SIMD) 表示 可 用 单个 指令 并 行 地 处 理 几 个 数据 。 

例如 ， 一 个 64 位 寄存 器 中 可 存放 4 个 16 位 操作 数 ， 可 以 用 一 条 指令 将 它们 与 另 一 
,个 寄存 器 中 的 另外 4 个 元 素 相 加 。 下 图 描述 了 如 何 并 行 地 完成 4 个 16 位 加 法 。 


| 
| 
| 4 个 字 
i 
| 





1i 
i 
i] 
也 
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现在 解释 如 何 扩展 处 理 器 体系 结构 以 集成 一 些 模块 来 加 快 音 频 和 视频 数据 的 处 理 速度 。 
Intel 是 最 早 强 调 音频 - 视频 数据 处 理 的 公司 之 一 ， 它 将 增强 其 IA32 体系 结构 的 技术 叫 作 
“多 媒体 扩展 ” 。 下 面 将 介绍 多 媒体 应 用 所 需 的 操作 类 型 ， 并 说 明 如 何 调整 体系 结构 以 加 快 
音频 和 视频 数据 的 处 理 。 一 般 说 来 ， 现 有 各 系列 处 理 器 的 体系 结构 已 经 针对 多 媒体 处 理 进行 
了 优化 。 

体系 结构 进展 

今天 的 32 位 和 64 位 微 处 理 器 是 多 年 以 来 不 断 进 步 的 结果 。 它 们 的 速度 更 快 ， 寄 存 器 更 
多 ， 数 据 通路 也 更 宽 ， 但 它们 的 指令 系统 却 依然 没什么 变化 。 特 别 是 20 世纪 90 年 代 设 计 的 
体系 结构 能 够 很 好 地 适应 科学 和 商务 应 用 ， 但 在 处 理 音频 、 视 频 和 电信 应 用 时 其 性 能 却 令 人 
失望 。 传 统 的 处 理 器 系统 的 问题 在 于 缺少 适合 音频 、 视 频数 据 结构 的 专用 模块 。 例 如 ， 音 乐 
CD 使 用 16 位 整 型 数据 ， 这 是 一 种 无 法 充分 现代 32 位 或 64 位 体系 结构 的 数据 格式 。 同 样 ， 
数字 视频 还 经 常会 使 用 8 位 红 - 绿 - 蓝 三 原色 , 用 8 位 操作 就 可 以 处 理 。 

到 了 20 世纪 90 年 代 中 期 ， 处 理 器 在 指令 层次 为 典型 多 媒体 应 用 中 原 语 操作 提供 的 支 
持 极 少 。 这 是 一 种 特意 的 令 人 担忧 的 忽略 ， 因 为 多 媒体 音频 和 视频 处 理应 用 通常 含有 需要 执 
行 大 量 相 对 简单 的 原 语 操 作 的 内 层 循环 。1996 年 ，Intel 发 布 了 一 种 称 为 MMX 的 多 媒体 扩 
展 技术 ,为 IA32 体系 结构 带 来 了 新 的 特征 。 这 种 变化 是 十 分 令 人 惊讶 的 ， 因 为 Intel 增加 了 
卓 令 集 的 复杂 度 ， 而 整个 趋势 正好 相反 。 与 此 同时 ， 采 用 一 些 能 使 IJA32 具有 强大 竞争 优势 
的 技术 是 非常 有 效 的 。 自 那 时 起 ， 每 一 代 新 微 处 理 器 都 会 向 其 内 核 中 增加 多 媒体 友好 的 专用 
指令 。 


Intel 早期 的 i860 体系 结构 就 已 使 用 MMX 技术 ，i860 是 一 种 早期 的 通用 处 理 器 ， 支 持 
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| 
| 
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图 形 rendering。 正 如 读者 所 看 到 的 ， 当 用 图 形 为 显示 世界 建 模 时 ， 一 个 复杂 物体 如 人 脸 将 
由 数 万 甚至 上 百 万 个 多 边 形 组 成 。Rendering 是 建 模 过 程 的 最 后 一 步 ， 通 过 向 多 边 形 添加 问 
题 和 光照 效果 ， 使 得 物体 表面 看 起 来 更 加 真实 。i860 处 理 器 提供 了 能 够 并 行 处 理 多 个 相 邻 的 
数据 操作 数 的 指令 (例如 ， 一 幅 图 像 中 4 个 相 邻 的 像素 )。MMX 属于 一 种 通常 被 称 作 短 向 量 
SIMD 的 技术 。 单 指令 多 数据 (SIMD) 是 指 能 够 用 同一 指令 并 行 地 处 理 多 个 数据 元 素 的 一 
类 体系 结构 。 同 样 ， 短 向 量 一 词 意味 着 多 个 由 几 个 元 素 组 成 的 数据 (典型 为 8 字 节 )。 表 5-3 
列 出 了 一 些 面向 多 媒体 处 理 设计 的 处 理 器 。 
表 5-3 第 一 代 短 向 量 处 理 器 


处 理 器 向 量 扩展 名 
Sun UltraSPARC VIS (Visual Instruction Set) 
Hewlett-Packard PA-RISC MAX (Multimedia Acceleration eXtensions) 
Intel Pentium MMX (Multimedia eXtensions) 
Intel Pentium SSE (Streaming SIMD extensions) 
Intel Core i7 SSE4 (Streaming SIMD extensions) 
Intel Sandy Bridge processor AVX (Advanced Vector Extensions ) 
Silicon Graphics MDMX (MIPS Digital Media eXtension) 
Digital Alpha MVI (Motion Video Instruction ) 
PowerPC AltiVec 
AMD K6-2 3Dnow! 
AMD XOP, FMA4, CVT16 
ARM NEON 
MIPS DSP ASE 


Motorola 在 其 集成 于 PowerPC G4 处 理 器 中 的 AltiVec 结构 中 实现 了 一 种 (当时 ) 最 完整 
的 短 向 量 SIMD 技术 。 尽 管 Motorola 放弃 了 主流 微 处 理 器 业务 并 且 将 其 出 售 给 FreeScale, 
IBM (Power 结构 的 创始 者 ) 仍然 支持 AltiVec, AltiVec 在 一 个 独立 的 单元 上 实现 ， 能 够 与 
现 有 整数 和 浮 点 单元 同时 工作 。Altivec 的 162 条 指令 提供 了 宽 字 段 移 位 、 压 缩 与 解压 缩 、 
交叉 数据 合并 ， 以 及 能 够 从 两 个 源 向 量 中 选 出 任意 数据 元 素 并 在 目的 寄存 器 中 排序 的 重组 等 
操作 。AltiVec 提供 了 128 个 新 的 寄存 器 。 

Sun 的 UltraSPARC 短 向 量 扩展 指令 (VIS) 面向 视频 处 理 。VIS 整数 运算 使 用 SPARC 
的 浮 点 寄存 器 。 像 素 级 的 视频 信息 作为 4 个 8 位 或 16 位 整数 保存 起 来 ， 分 别 表示 像素 的 红 、 
绿 、 蓝 等 颜色 以 及 Alpha 信息 。 这 些 值 定 义 了 像素 中 的 红 、 绿 、 蓝 等 颜色 的 量 以 及 其 透明 
度 。Alpha AWA O<Sa<1, RANA. SPARC 的 VIS 扩展 指令 类 型 有 : 

e 像素 扩展 与 压缩 

© SIMD 逻辑 操作 

è SIMD 加 、 乘 和 比较 

© 对 齐 和 边界 处 理 

。 合并 

e 像素 距离 

像素 扩展 与 压缩 指令 互 为 道 操作 ， 能 够 在 8 位 和 16 位 两 种 像素 表示 之 间 转 换 数据 。 加 
法 和 减法 指令 能 够 完成 2 个 或 4 个 16 位 加 法 /减法 ， 以 及 1 个 或 2 个 加 法 /减法 。 乘 法 指令 
可 以 用 4 个 8 位 数 乘 4 个 16 位 数 。 
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align 指令 使 处 理 器 可 以 访问 64 位 字 中 间 的 像素 。 如 果 一 幅 图 像 的 开始 或 结束 像素 没 
有 在 64 位 边界 处 对 齐 edge 指令 会 将 所 有 没有 用 到 的 像素 屏蔽 掉 。 

正如 刚才 所 看 到 的 ， 压 缩 是 现代 视频 处 理 的 一 项 关键 要 素 ， 用 于 减少 编码 图 像 所 需 的 位 
数 以 及 传输 图 像 所 需 的 带宽 。 因 为 人 们 对 颜色 变化 不 如 对 亮度 变化 敏感 ， 所 以 可 以 以 比 亮度 
低 的 分 辩 率 保存 颜色 。 因 此 ， 视 频 压缩 算法 会 将 亮度 信息 从 颜色 信息 中 分 离 出 来 。merge 指 
令 用 于 将 像素 信息 从 压缩 转换 为 平坦 形式 ， 然 后 可 用 像素 的 加 法 和 乘法 指令 分 别处 理 亮度 和 
颜色 信息 。 

前 文 讲 过 ， 运 动 图 像 的 压缩 是 基于 连续 帧 的 信息 常常 保持 不 变 这 一 实际 情况 。 计 算 两 个 
块 (图 像 区 域 ) 之 间 的 偏 移 可 以 得 到 一 个 运动 向 量 。 可 以 将 当前 块 与 前 一 帧 中 同一 块 之 间 的 
偏差 编码 ， 并 且 沿 着 该 块 的 运动 向 量 传输 出 去 。 

UltraSPARC VIS 体系 结构 通过 比较 连续 的 图 像 区 域 以 获得 最 小 化 估算 误差 的 运动 值 ， 
为 运动 估计 提供 了 硬件 支持 。 误 差 是 通过 对 参考 帧 与 新 帧 的 区 域 中 每 对 像素 的 差 求 和 而 得 到 
的 。 该 过 程 需 要 进行 8 次 减法 、8 次 求 绝 对 值 、8 次 加 法 、 载 入 8 MRR. MIF 8 个 像素 以 
及 一 次 加 法 。 表 5-4 列 出 了 一 些 短 向 量 处 理 器 的 体系 结构 特征 。 

表 5-4 短 向 量 处 理 器 的 特征 





ERER HE MAKE 
FR | | | 

wi 下 

向 量 寄 存 器 8 个 浮 点 寄存 器 32 个 浮 点 寄存 器 32 个 整数 寄存 器 
WW | | 

ra 

6 z 

E lv | | 

WK | | | 

a 8 

116 NM z 
ara | O vd Sd 

saa | 

RV | | 

他 和 到 和 z 
pam | V IT | | 

和 

RV | | ë 

mam | | vv 


曾经 激进 的 MMX 技术 已 经 成 为 现在 的 主流 技术 ，Intel IA32 系列 的 每 一 代 处 理 器 都 
增加 了 更 多 的 扩展 指令 。 多 媒体 扩展 (MMX) 先是 成 为 流 扩 展 (SSE)， 后 来 又 变 为 高 级 向 
量 扩 展 (AVX). Intel 的 竞争 对 手 AMD 推出 了 名 为 3DNow! 的 扩展 指令 集 。 但 在 2010 年 ， 
AMD 宣布 它 在 未 来 的 处 理 器 中 不 再 支持 3DNow! ( 据 推 测 大 概 是 因为 Intel 在 市 场 上 所 取得 
的 成 功 )。 

向 处 理 器 中 增加 新 指令 很 可 能 会 带 来 向 后 兼容 的 问题 。 如 果 所 有 新 软件 都 使 用 新 的 流 扩 


246 2 — KY HERR 





展 指 令 ， 这 一 问题 将 会 成 真 ， 并 且 软 件 无 法 在 旧 机 器 上 和 运行。 实际 上 ， 这 一 问题 通过 应 用 程 
序 接口 解决 了 。 应 用 程序 会 请 求 一 个 使 用 流 扩展 指令 的 操作 系统 服务 。 但 这 个 应 用 程序 自己 
不 会 运行 包含 流 扩展 指令 的 代码 。 如 果 处 理 器 不 支持 流 扩展 指令 ， 将 使 用 遗留 代码 执行 被 请 
求 的 操作 。 
下 面 将 介绍 Intel MMX 技术 。 尽 管 MMX 已 经 被 IA32 内 核 体系 结构 上 更 丰富 、 用 途 更 
广 的 流 扩展 指令 所 取代 ， 但 它 却 为 SIMD 特性 的 引入 提供 了 很 好 的 媒介 ， 因 为 其 支持 新 操作 
的 内 核 非常 小 。 


5.3 SIMD 处 理 简 介 


Intel 的 多 媒体 扩展 为 IA32 体系 结构 提供 了 用 一 条 指令 处 理 多 个 数据 的 SIMD 能 力 。 例 
如 ， 可 以 并 行 地 将 4 对 8 位 整数 相 乘 或 将 8 对 字 节 数 相 加 。 图 5-14 描述 了 MMX 的 新 数据 
类 型 ， 它 们 都 是 寄存 器 MM0 ~ MM7 中 的 64 位 值 。 

在 1997 年 MMX 发 布 时 ， 人 们 认为 IA32 需要 维持 向 后 兼容 。 对 MMX 技术 的 一 个 主要 
需求 是 它 必须 与 现 有 操作 系统 兼容 ， 并 且 不 能 对 IA 32 体系 结构 进行 扩展 以 使 其 包括 新 的 寄 
存 器 、 新 的 条 件 码 或 新 的 异常 处 理 功能 。 简 言 之 ， 设 计 MMX 技术 的 目标 是 在 不 进行 任何 改 
变 的 情况 下 将 其 引入 IA32。 这 一 方法 很 快 被 证 明 是 站 不 住 脚 的 ， 而 且 随 着 多 媒体 技术 与 每 
一 代 Intel 处 理 器 不 断 改 进 ， 早 期 体系 结构 的 限制 也 被 取消 了 。 

为 了 避免 增加 新 的 寄存 器 ，MMX 必须 使 用 一 种 无 寄存 器 的 结构 ， 比 如 栈 ， 或 者 
利用 现 有 的 寄存 器 ， 使 之 具有 双重 功能 。 与 SPARC —#%, Intel 使 用 浮 点 寄存 器 作为 
MM0 ~ MM7， 与 浮 点 寄存 器 共享 同样 一 部 分 硅 片 。 因 此 ， 无 法 同时 进行 MMX 操作 和 浮 点 
操作 。 浮 点 寄存 器 宽度 为 80 位 ， 但 是 MMX 指令 仅 使 用 了 这 些 寄存 器 的 前 64 位 。 





ik MMR 寄存 器 可 被 分 为 63 5655 4847 4039 3231 24 
8 个 8 位 ,4 个 16 位 ,或 2 个 32 8 个 字 节 mee 
位 ， 如 图 5-14 所 示 。 表 5-5 列 出 TE 
了 MMX 指令 集 ， 它 的 指令 都 采 iit- edda 
PEE CSG REF FER :Tr | 
两 地 址 格式 。MMX 指令 助 记 符 63 oÈ 
uefi, Ranmat. p o E 


如 ，PaDD 指令 完成 压缩 加 法 。 后 图 5-14 MMX 数据 类 型 

Bb, w 或 分 别 代 表 字 节 、 字 或 双 字 操作 。 例 如 ， 指 令 Pappb mo, mmi 同时 将 mma 中 的 8 对 
字 节 数 与 Mo 中 的 8 对 字 节 数 相 加 ， 并 将 8 个 和 保存 在 mo 中。 因为 这 些 指令 都 可 以 处 理 不 
同类 型 的 操作 数 ， 本 书 用 大 写 表示 基本 助 记 符 ， 用 小 写 表示 不 同 的 操作 数 。 例 如 ， 


PADDb MM0 ,MM1 
或 PSUBw MM3,MMO 


当 pappb 指令 将 MMI 中 的 8 个 字 节 与 MMO 中 对 应 的 字 节 相 加 ， 并 将 结果 保存 在 MMO 
中 时 ， 将 产生 8 个 进位 位 ， 它 们 将 被 丢弃 ， 不 会 被 保存 。 
表 5-5 MMX 指令 汇 
指令 助 记 符 操作 描述 
PADD (b, w, d) Wrapaournd， 饱 和 运算 | ”两 个 压缩 的 8 个 字 节 ，4 个 16 位 字 ， 两 个 双 字 相 加 
PSUB (b, w, d) 两 个 压缩 的 8 MEAT, 4716, MANEA 
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( 续 ) 
ET ii 
PCMPEQ (b,w, d) ee. KF 比较 压缩 字 节 / 字 / 双 字 。 如 果 比 较 结果 为 tue， 则 目的 寄 
PCMPGT (b, w, d) scale 存 器 的 内 容 为 一 个 全 1 的 掩 码 ， 和 否则 为 全 0 


4 个 压缩 、 有 符号 16 位 字 并 行 相 乘 ， 并 将 两 个 相 邻 的 32 位 


PMADDWD 
结果 并 行 相 加 。 结 果 为 一 个 32 位 双 字 


PMULLW 4 个 压缩 16 位 数 并 行 乘法 。 可 以 选择 4 个 32 位 积 的 高 16 位 
PMULHW 或 低 16 位 作为 结果 






PSRA (w,d) 

aa = 移 位 位 数 保存 在 寄存 器 | ”对 压缩 的 4 个 字 、 两 个 双 字 或 整个 64 位 四 字 进 行 算术 右 移 、 
se 中 或 是 一 个 立即 数 BMA. WHE 

PSRL (w,d,q) 


PUNPCKH (bw, wd, dq) 


PuNecKL(bw,wd.dg) | O 
een 交叉 合并 压缩 的 8 个 字 节 、4 个 16 位 字 或 两 个 32 位 双 字 





PACKSS (wb, dw) 总 进行 他 和 运算 并 行 地 将 双 字 压 缩 为 字 或 字 节 
PAND | -| 完成 按 位 逻辑 与 操作 
PANDN | ”| -完成 按 位 逻辑 与 非 操作 
POR | | RRE 
PXOR | | ARRERA 
mov (d,a) | | 在 存储 器 和 MMX 寄存 器 间 传 送 32 或 64 位 数据 
EMMS | ”| 清除 浮 点 寄存 如 标志 位 


在 处 理 数据 前 ， 必 须 将 数据 加 载 到 MMX 寄存 器 中 。MMX 结构 提供 了 两 条 新 的 数据 传 
送 指令 ，Mova 和 Mova， 在 MMX 寄存 器 和 存储 器 之 间 传 送 32 位 或 64 位 数据 。Mova 指令 传 
送 32 位 双 字 ， 而 mova 指令 传送 64 位 四 字 。 如 果 操 作 数 为 32 位 ， 还 可 以 在 MMX 寄存 器 和 
男 一 个 IA32 寄存 器 之 间 传 送 数据 。 

K 5-4 中 最 后 一 条 MMX 模式 指令 与 其 他 指令 不 同 ， 因 为 它 不 是 数据 处 理 指令 。EMMs 指 
令 会 将 浮 点 寄存 器 标志 位 清空 ， 以 加 快 MMX 模式 与 浮 点 模式 间 的 转换 。 后 面 将 继续 介绍 这 
些 指令 。 下 面 先 来 深入 介绍 压缩 MMX 操作 的 特点 。 

1. 压缩 操作 

所 有 MMX 指令 (除了 用 于 加 快 MMX 到 浮 点 模式 切换 的 Emms 指令 ) 都 带 有 一 个 源 操作 
数 和 一 个 目的 操作 数 。 例 如 ，PADDsb mo, mi 使 用 饱和 运算 完成 8 对 字 节 数 的 并 行 加 法 。 人 饱 
和 运算 在 值 超出 范围 时 将 其 裁剪 为 最 低 值 或 最 高 值 (例如 ，8 位 数 运 算 250 + 20 = 255, 下 
一 节 将 继续 讨论 这 一 内 容 )。 寄 存 嚣 MMI 中 的 源 操作 数 与 MM0 中 的 目的 操作 数 相 加 ， 结 果 
被 存 人 MM0。 请 注意 指令 助 记 符 的 结构 :P( 压缩 ) + app( 操作 ) + s( 运算 模式 ) + b( 数据 大 
小 )。 MMX 指令 使 用 的 另 一 个 后 缀 是 u， 表 示 无 符号 操作 。 尽 管 二 进 制 补 码 和 无 符号 加 / 减 
法 遵循 同样 的 规则 ， 但 在 饱和 运算 中 ， 上 限 与 下 限 是 不 同 的 〈 无 符号 数 是 001。 和 FF,。， 有 符 
号 数 是 801。 和 7Fie )， 这 意味 着 必需 指出 要 进行 有 符号 还 是 无 符号 操作 。 图 5-15 描述 了 指令 
PADDb MM1,MMO 的 功能 ， 两 个 MMX 寄存 器 中 的 8 对 字 节 数据 被 同时 相 加 。 

由 于 压缩 MMX 加 法 中 的 8 个 加 法 运算 会 同时 进行 ， 需 要 使 用 一 个 8 位 向 量 保存 这 些 加 
法 产生 的 8 个 进位 。 前 面 已 经 指出 ， 没 有 这 样 的 向 量 ， 所 以 程序 员 无 法 访问 MMX 运算 中 生 
成 的 进位 。 因 此 ， 使 用 MMX 指令 进行 加 法 或 减法 运算 不 会 改变 处 理 器 进位 位 的 状态 。 
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MMI 7 6 PHS 4 SS SH. Si wo 


图 5-15 MMX 加 法 : 执行 PADDb MM1, MMO 


来 自 网 络 的 MMX 乘法 实例 
下 面 通过 两 个 例子 说 明 MMX 代码 。 在 第 一 个 例子 里 ，24 位 向 量 中 的 每 个 元 素 都 将 
加 上 一 个 常数 (BP x, =x, +e, i=0,1,2,,23)s CMT MMX 指令 和 传统 IA32 指令 ， 
但 含义 是 非常 清楚 的 。 
mova mml,c ; 将 常数 载 入 寄存 器 mm (8 份 ) 


aRGB 频道 混合 在 一 起 。 混 合 因子 是 一 个 0 一 255 范围 内 的 整数 ， 每 个 频道 使 用 输出 二 
(a*fa + b*(255 一 应 ))/255 被 混合 。 请 注意 这 段 代码 并 不 会 完成 除 255 的 除法 运算 。 它 将 
首先 通过 移 位 完成 除 256， 如 果 因 子 大 于 127， 接 下 来 将 结果 加 1。” 


; DWORD LerpARGB(DWORD a, DWORD b, DWORD f); 
; load the pixels and expand to 4 words 


| mov cx,3 ;循环 3 次 ; 设置 循环 计数 器 ( 8 x 3=24 ) 
mov esi,0 ; HHA EA OO CAF EFS) 
Next: movg mm0,x[esi] ; 使 用 索引 寻 址 将 8 个 字 节 载 入 寄存 器 mm0 
paddb mm0,mm1 ; 现在 进行 8 字 节 向 量 加 运算 
movg x[{esi] ,mmo ; 将 8 字 节 结果 存 入 x 
add esi,8 ; 索引 加 8 
loop L1 ; Intel 处 理 器 用 寄存 器 cx 建立 循环 
emmes ; 完成 MMX 运算 并 将 寄存 器 释放 给 FP 单元 
第 二 个 例子 由 Andreas Jonsson 给 出 ， 说 明 如 和 何 使 用 SIMD 代码 将 两 个 32 位 视频 


movd mmi, [esp+4] ; mml = 0 0 0 0 aA aR aG aB 
movd mm2, [esp+8] ; mm2 = 0 0 0 0 bA bR bG bB 
pxor mm5, mm5 7 m5 =00000000 
punpcklbw mml, mm5 ; mml = 0 aA O aR O aG 0 aB 
punpcklbw mm2, mm5 ; mm2 = 0 DA 0 bR O bG O bB 
; load the factor and increase range to [0-256] 
movd mm3, [esp+12] ; mm3 = 0 0 0 0 faA faR faG faB 
punpcklbw mm3, mm5 ; mm3 = 0 faA 0 faR 0 faG 0 faB 
movg mm6, mm3 ; mm6 = faA faR faG faB [0 - 255] 
psrlw mmé, 7 ; mm5 = faA faR faG faB [0 - 1] 
paddw mm3, mm6 ; mm3 = faA faR faG faB [0 - 256] 
T fb = 256 - fa 
pempeqw mm4, mm4 ; mm4 = OXFFFF OXFFFF OxFFFF OxFFFF 
psrlw mm4, 15 ; mm4 = d 1 1 1 
psllw mm4, 8 7 mm4 = 256 256 256 256 
psubw mm4, mm3 ; mm4 = fbA fbR fbG fbB 
+ ves = (a*fa + b*fb)/256 
pmullw mmi, mm3 ; mml = aA aR aG aB 


pmullw mm2, mm4 ; mm2 = bA bR bG bB 
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| paddw mmli, mm2 ; mmi = rA rR rG rB 
| psrlw mml, 8 ; mmi = 0 rA 0 xR 0 rG 0 rB 
| ; pack into eax 
packuswb mmi, mmi 7 mml = 0 0 0 0 YA rR rG rB 
| mova eax, mml + @ax = rA rR fG rB 
| ret 
2. 饱和 运算 


MMX 指令 特别 有 趣 的 一 点 是 它们 对 整数 算术 运算 中 上 洪 和 下 溢 的 处 理 。 传 统 的 整数 
算术 运算 使 用 封装 (wraparound) 模式 , (例如 ) 8 位 二 进 制 数 11111111 加 1 将 得 到 结果 
00000000 和 进位 1。 术 语 “wraparound ”表示 最 大 值 将 被 回 滚 到 最 小 值 。 

MMX 指令 可 以 在 传统 的 封装 模式 下 工作 ， 但 这 却 不 能 很 好 地 符合 多 媒体 处 理 的 实际 物 
理 意 义 。 假 设 我 们 用 一 个 8 位 值 表示 一 个 蓝 色 像素 的 亮度 。 如 果 11111111 代表 最 亮 的 蓝 色 
而 00000000 代表 没有 蓝 色 , 11111111 + 1 在 物理 上 应 为 11111111 ( 即 不 能 变 得 比 蓝 色 还 蓝 )。 
同样 ，00000000 一 1 应 等 于 00000000， 因 为 不 可 能 比 00000000 的 蓝 色 更 少 了 。 对 于 这 两 种 
情形 ， 算 术 运 算 过 程 中 的 最 大 值 或 最 小 值 都 是 有 限 的 。 如 果 某 个 场景 的 一 部 分 已 经 全 都 是 白 
色 ， 你 没 办 法 把 它 变 得 更 白 。 这 种 当 运 算 结 果 大 于 一 个 上 限 或 小 于 一 个 下 限时 ， 结 果 就 等 于 
上 限 或 是 下 限 的 方法 非常 符合 物理 实际 。 将 超出 范围 的 值 设 为 其 上 限 或 下 限 而 不 进行 回 滚 的 
运算 叫 作 饱和 运算 。 

K 5-5 列 出 了 更 多 的 细节 。 所 有 MMX 指令 (除了 乘法 ) 都 在 一 个 周期 内 完成 。 有 些 
MMX 操作 可 以 在 封装 模式 或 饱和 模式 下 进行 。 如 果 是 有 符号 饱和 和 运算， 结果 的 最 大 值 和 最 
小 值 分 别 为 7Fi。 和 80,, ( 字 节 运算 中 )。 如 果 是 无 符号 饱和 运算 ， 结 果 的 最 大 值 和 最 小 值 分 
HA FF, #00, ( 字 节 运算 中 )。 请 考虑 下 面 的 无 符号 字 节 加 法 运算 ，Pappusb MM0,MM1， 这 
里 MMO 和 MM1 的 初 值 分 别 为 

77012345FOAAFOIF 和 11FFEE00002387CE 

PADpusb 中 的 u 代 表 无 符号 ，s 代表 饱和 运算 ,而 b 代表 字 节 操作 数 。 如 果 将 每 个 十 六 
进 制 操作 数 都 拆 分 为 8 组 ， 则 可 以 进行 下 面 的 加 法 ， 并 将 所 有 超过 FF, 的 和 记 作 FF,e: 

77 01 23 45 FO AA FO 88 
+11 FF FF 007A 23 87 CE 
88 FF FF 45 FF CD FF FF 

有 4 对 数 的 和 超过 了 FF,。， 结 果 被 限制 为 FF,。 现 在 假设 使 用 有 符号 饱和 运算 完成 同样 

的 操作 。 此 时 可 得 
77 01 23 45 FO AA FO 88 
+11 FF FF 007A 23 87 CE 
7F 00 22 45 6A CD 80 80 

被 饱和 处 理 为 801 (最 小 负数 ) 和 7Fis (最 大 正 数 ) 的 值 加 阴影 表示 。 后 面 将 介绍 如 何 
用 饱和 运算 而 不 是 分 支 指令 进行 裁剪。 

下 面 是 一 个 无 分 支 算术 运算 的 例子 ， 它 用 饱和 运算 实现 了 一 个 通常 需要 分 支 的 操作 。 假 
设 P，Q 和 RR 都 是 8 字 节 向 量 , 我 们 希望 计算 绝对 值 R=|0 - Pl。 一 般 可 用 下 面 的 代码 实现 


IF (Q > R) 
THEN P = Q - R 
ELSE P=R-Q 


使 用 饱和 运算 可 以 更 加 高 效 地 实现 这 一 算法 。 若 要 同时 进行 减法 O — PAP 一 GO， 差 为 
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正 值 的 那个 运算 会 得 到 正确 结果 。 然 而 ， 差 为 负 值 的 那个 运算 结果 为 0， 因为 饱和 运算 会 将 
负 值 修改 为 0。 因 此 ，0 一 了 和 P 一 2 这 两 个 值 中 总 有 一 个 为 0。 因为 这 些 操 作 中 一 个 结果 
为 正 ， 另 一 个 结果 为 0， 将 它们 或 在 一 起 可 以 得 到 最 终结 果 。 如 果 MMO W P iii MM1 为 2， 
则 有 


mova MM2 , MMO ; 将 已 复制 到 寄存 器 MM2 中 
PSUBusb MMO,MM1 ; 计算 P - Q 的 差 ; FP < Q 则 结果 为 0 
PSUBusb MM1,MM2 ; 计算 Q - PŽ; 车 Q < P 则 结果 为 0 
POR MMO , MM1 ; 两 个 差 进行 或 操作 (其 中 一 个 为 0) 

分 支 被 认为 是 有 害 的 


到 现在 为 止 ， 我们 都 将 分 支 视 作 完 全 正常 的 指令 。 而 在 第 6 章 ， 我 们 将 看 到 分 支 指 
令 对 计算 机 性 能 是 不 利 的 。 
| 现代 计算 机 使 用 了 流水 线 一 一 一 种 将 指令 执行 重合 起 来 的 技术 。 例 如 ， 在 执行 当前 
指令 时 ， 下 一 条 指令 正在 被 译 码 ， 而 再 下 一 条 指令 正在 被 读 出 。 如 果 当 前 指令 是 一 条 转 
移 成 功 的 分 支 ， PEURA RARA, 在 这 些 指令 上 已 经 进行 的 
所 有 工作 将 被 丢弃 。 


这 种 丢弃 部 分 已 被 执行 指令 的 需求 被 称 作 控制 n 突 。 因 此 ， 能 够 避免 分 支 的 程序 设 
计 机 制 是 非常 好 的 。 








这 段 代 码 表明 可 以 在 4 个 周期 内 完成 8 对 字 节 数 的 8 个 绝对 值 差 运 算 而 无 需 使 用 分 支 操 
作 。 这 就 通过 消除 与 分 支 有 关 的 可 能 的 数据 冲突 提高 了 处 理 器 的 效率 。 在 第 6 章 介 绍 处 理 器 
组 成 时 我 们 将 继续 讨论 这 一 内 容 。 

3. 压缩 移 位 

MMX 逻辑 和 移 位 指令 处 理 64 a 图 5-16 描述 了 对 寄存 器 中 的 4 
个 字 并 行 移 位 后 的 结果 。 使 用 指令 PsLw ao，MM1， 将 寄存 器 MMO 中 4 个 16 位 字 的 每 一 
个 都 左 移 4 位 (寄存 器 MMI 含有 移 位 位 数 )。 ep 
行 移 位 操作 不 会 记录 进位 输出 。 请 注意 ， i elite © 
都 视 作 无 意义 的 ， 因 为 无 ; 将 寄存 器 分 为 多 个 字 节 还 是 其 他 单位 ， 结果 都 是 相同 的 。 

4. 压缩 乘法 

MMX 结构 提供 了 两 种 类 型 的 乘法 : 一 个 并 行 生 成 两 个 数 乘 积 的 传统 乘法 指令 ; 以 及 一 
个 功能 更 强 的 将 所 有 乘积 求 和 的 乘 如 指令 。 前 面 已 经 看 到 ARM 提供 了 一 条 将 两 个 数 相 乘 并 
将 结果 与 第 三 个 操作 数 相 加 的 乘 累加 指令 。 乘 累加 操作 被 广泛 地 出 现在 向 量 操作 中 ， 用 于 计 
算 两 个 向 量 的 内 积 。 

指令 PMULhw 与 PMUL1w 都 将 4 对 有 符号 已 压缩 的 16 位 字 相 乘 ， 得 到 4 个 32 位 乘积 。 由 
于 无 法 将 4 个 32 位 乘积 保存 在 一 个 64 
位 MMX 寄存 器 中 ， 必 须 使 用 pwurhw 选 : 
BENERA 16 112, H mwih a 移 位 前 (MM0 含 有 4 个 16 位 字 ， 而 MMI 则 含有 移 位 
每 个 积 的 低 16 位 。 图 5-17 描述 了 这 两 ”的 位 数 ) 
条 指令 对 两 个 MMX 寄存 器 内 容 的 影响 。 = z 
请 注意 MMX 指令 是 如 何 为 加 法 和 减法 b) 执行 指令 PSILW_ Mro,MMl 后 (MMO 中 的 4 个 字 都 被 
指令 提供 更 高 层次 的 一 般 性 (8 位 或 32 左 移 4 位 ， 其 右 端 补 0 ) 
位 加 法 )， 而 乘法 指令 则 被 限制 为 16 位 有 图 5-16 上 讨 缩 移 位 操作 
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MMO [PAP P | P。| 源 操作 数 , 乘 数 (4 个 16 位 值 ) 
MMI [NG] o | QC，| 源 操作 数 ， 被 乘 数 (4 个 16 位 值 ) 


4 个 32 位 中 间 结 果 ， 积 





积 的 高 半 部 分 


MMO fee? 





指令 PMULhw MMO, MM1 的 结果 


积 的 低 半 部 分 
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44 PMUL1w MMO, MM1 的 结果 
图 5-17 压缩 乘法 
压缩 乘 累 加 指令 一 一 eMappwa， 也 是 将 4 对 有 符号 16 位 字 相 乘 。 不 过 ， 它 还 会 将 两 对 
相 邻 的 32 位 乘积 相 加 ， 得 到 两 个 32 位 和 。 如 果 源 字 为 P;, Pa, Pi, PAM QO, Q, Q, 
Ons FLA P, s Os, Pa k 03; P; s Els Py z Ooo 然后 将 两 个 相 邻 的 积 相 加 ， 得 到 CP, s O; 二 
P, + Q,), (P, 7 Q, +P i Gi Jo 图 5-18 描述 了 这 个 操作 。 


64 位 


16 位 





源 操作 数 ， 乘 数 
PEEL, M 


z 
rai 

Y it 
ae 
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i PO; + Pia 
- 图 5-18 压缩 乘 累加 


5. 并 行 比较 

MMX 指令 可 以 比较 两 个 值 ， 尽 管 值 的 比较 方式 以 及 比较 结果 的 使 用 方法 都 与 传统 比较 
一 样 。 因 为 MMX 结构 并 没有 改变 IA32 的 体系 结构 状态 ， 也 不 允许 用 测试 结果 设置 处 理 咒 
标志 。 因 此 ， 任 何 测试 或 比较 都 必须 通过 将 寄存 器 的 位 置 1 或 清 0 来 起 作用 。 而 且 ， 由 于 
MMX 并 行 地 处 理 各 个 字 ， 向 量 比较 与 标量 比较 的 本 质 是 不 同 的 ， 因 为 会 产生 多 个 结果 。 

MMX 体系 结构 提供 了 两 条 比较 指令 ; 一 条 进行 等 于 比较 ， 另 一 条 进行 大 于 比较 。 它 们 
是 应 用 最 广 的 比较 操作 中 的 两 个 (不 可 能 提供 绝 大 多 数 处 理 器 体系 结构 都 实现 的 全 部 16 个 
标准 布尔 测试 )。 这 两 条 指令 都 可 以 对 字 节 、 字 和 双 字 数据 进行 操作 。 

Intel 使 用 了 一 个 有 趣 的 测试 方法 ， 它 采用 了 与 MIPS 的 sit (小 于 时 置 1 ) 指令 相同 
的 方法 比较 两 个 寄存 器 的 内 容 ， 并 根据 测试 输出 将 第 三 个 寄存 器 的 内 容 置 为 1 或 0。 一 条 
MMX 测试 指令 的 输出 要 么 将 目标 操作 数 置 为 全 0， 要 么 将 其 置 为 全 1， 而 不 是 设置 状态 寄 
存 器 中 一 个 标志 位 的 值 。 测 试 结果 为 true 将 得 到 全 为 1 的 结果 ， 结 果 为 false 则 得 到 全 为 0 
的 结果 。 例 如 ， 对 值 Al 9 进行 等 于 测试 将 得 到 00000000 ( 字 节 比较 中 )， 而 测试 值 7 和 7 
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将 得 到 结果 11111111。 换 句 话说 ， 比 较 的 输出 是 一 个 数值 而 不 是 一 个 标志 的 值 。 

比较 指令 返回 的 数据 位 使 我 们 可 以 将 比较 结果 用 作 人 逻辑 操作 的 掩 码 ， 因 而 避免 执行 一 条 
显 式 的 条 件 分 支 指令 。 假 设 要 将 一 幅 图 像 的 某 个 区 域 进行 多 色调 分 色 变 换 ; 也 就 是 说 ， 如 果 
颜色 的 亮度 高 于 (或 低 于 ) 给 定 的 门槛 值 ， 则 将 该 区 域 设 为 一 种 颜色 。 多 色调 分 色 变换 将 使 
图 像 的 每 个 区 域 只 有 一 种 颜色 。 


PCMPGTh MMO,MM1 ; compare 8 pixels in MM1 with a preset level in MMO 
PAND MM1, MMO ; Set regions less than the preset level to 0 


第 一 个 操作 ，PcMPerb， 根 据 差 [MMO] — [MM1] 比较 寄存 器 MM0 中 的 8 个 字 节 与 
MM1 中 的 8 个 字 节 。 如 果 [MM0uwei] > [MM1lw， 则 比较 结果 为 FF， 如果 [MM yei] < 
[MM1ow ]， 则 比较 结果 为 00,s。 请 考虑 下 面 的 例子 : 


MM1 中 的 源 像 素 BF C2 30 34 40 Fi A3 

MMO 中 预 置 的 等 级 50 50 50 50 50 50 50 

MM1 中 的 比较 掩 码 FF FF 00 00 00 FF FF 执行 PCMPPGTb MM0,MM1 之 后 
MM1 中 的 最 终结 果 8F C2 00 00 00 F1 A3 a PAND MM1,MM0 之 后 

6. 压缩 与 解压 缩 


压缩 与 解压 缩 指令 用 来 完成 不 同类 型 数据 之 间 的 转换 ， 也 就 是 说 ， 将 32 位 数 转换 为 16 
位 ， 或 将 16 位 数 转换 为 8 位。 顾名思义， 压缩 指令 通过 将 字 转 换 为 字 节 (或 双 字 转换 为 字 ) 
将 数据 压缩 保存 在 MMX 寄存 器 内 。 有 符号 或 无 符号 饱和 运算 都 可 能 需要 进行 截断 处 理 。 带 
压缩 的 有 符号 饱和 运算 ( pack-with-signed saturating arithmetic) PacKss 对 源 和 目的 寄存 器 中 
的 有 符号 数 进行 压缩 和 饱和 和 运算， 并 将 有 符号 的 运算 结果 写 回 目的 寄存 器 (有 符号 饱和 模式 
是 这 条 指令 的 唯一 选项 )。 

packssdw 指令 将 源 操作 数 中 的 两 个 32 源 操作 数 O BORN 
位 字 和 目的 操作 数 中 的 两 个 32 位 字 压 缩 í SE re: 
为 4 个 有 符号 16 位 值 并 保存 在 目的 寄存 
器 中 ， 如 图 5-19 所 示 。 如 果 一 个 有 符号 字 
的 值 大 于 或 小 于 有 符号 16 位 整数 的 有 效 
范围 ， 整 数 的 值 将 通过 饱和 运算 被 转换 为 
7FFF,s， 负 数 将 被 转换 为 800016。 

压缩 的 逆 操作 是 解压 缩 ， 数 据 将 会 被 源 操作 数 _ 
Ho Dil, purek 指令 并 不 仅仅 是 并 行 PEI oP, 
压缩 指令 的 简单 逆 操 作 。 并 行 解压 缩 指令 
应 该 被 视 作 一 条 并 行 合 并 指令 ， 它 能 处 理 
3 种 数据 类 型 : 字 节 到 字 (bw)， 字 节 到 
WF ( wd)， 以 及 双 字 到 四 字 ( dq)。 当 一 HEIER 
个 字数 据 被 解压 缩 时 ， 它 将 占用 两 倍 的 位 图 5-20 PACKsewb 指令 
数 。 每 条 MMX 指令 都 可 以 从 一 个 字 的 上 半 部 分 或 一 个 字 的 下 半 部 分 解压 缩 。 因 此 ， 解 压缩 
指令 有 6 种 不 同类 型 。 

图 5-21 描述 了 将 字 节 解压 缩 为 字 的 PuNPCKLbw 指令 。 这 里 ， 两 个 MMX 寄存 器 中 的 4 
个 字 节 (在 寄存 器 的 低 半 部 分 ) 被 解压 缩 ， 生 成 的 8 个 字 节 被 保存 在 目的 寄存 器 中 。 

使 用 解压 缩 指令 可 以 完成 一 些 处 理 ， 比 如 将 某 些 寄存 器 置 为 0,。 请 考虑 下 面 的 例子 ， 
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图 5-19 ”PACKssdw 指令 


O Ds 
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这 里 MM! 的 初 值 为 0123456789ABCDEF16。 该 指令 的 结果 为 000089AB0000CDEF,s， 保 存 
TE MMI 中 。 










压缩 的 源 操作 数 1 











压缩 的 源 操作 数 2 
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解压 缩 的 结果 1 
图 $-21 解压 缩 指令 (从 低 半 部 分 解压 缩 ) 


PXOR MMO, MMO ;clear register MMO 
PUNPCKLwd MM1,MMO ;unpack/merge MM1 into MMO 


7. 与 浮 点 共存 

正如 前 面 所 介绍 的 ，MMX 技术 使 用 IA32 已 有 的 浮 点 寄存 器 。 这 被 称 作 寄存 器 别名 ， 
因为 同一 个 寄存 器 有 两 个 不 同 的 名 字 ( 浮 点 和 MMX)。 图 5-22 描述 了 浮 点 寄存 器 与 MMX 
寄存 器 之 间 的 对 应 关系 。 浮 点 寄存 器 不 能 被 显 式 访问 ， 它 们 构成 了 一 个 深度 为 8 的 栈 ， 浮 点 
操作 对 栈 顶 数据 进行 处 理 。MMX 指令 可 以 显 式 地 对 MMX 寄存 顺 寻 址 。 


浮 点 标志 0 





80 64 63 





浮 点 寄存 器 










MMX 
寄存 器 





© Cengage Learning 2014 


图 5-22 将 MMX 寄存 器 映射 到 浮 点 寄存 


对 一 个 MMX 寄存 器 进行 写 操作 时 ，0 ~ 63 位 都 会 被 修改 ， 而 64 一 80 位 ( 浮 点 数 的 
指数 段 ) 将 被 自动 置 为 1。 当 被 用 作 浮 点 值 时 ， 一 个 指数 部 分 为 全 1 的 浮 点 数 被 定义 为 NaN 
数 ， 这 会 防止 MMX 寄存 器 的 内 容 被 作为 有 效 的 浮 点 值 使 用 。 

浮 点 寄存 器 被 组 织 为 栈 结构 并 通过 栈 机 制 访 问 。 因 此 ， 译 点 寄存 器 无 法 被 随机 访问 。 保 
持 栈 干净 被 认为 是 个 很 好 的 经 验 。 在 将 浮 点 值 人 栈 并 进行 浮 点 运算 后 ， 应 该 在 计算 序列 的 
最 后 将 栈 清空 。 每 个 浮 点 寄存 器 都 带 有 一 个 标志 字段 ， 表 明 这 个 寄存 器 是 否 已 被 占用 。 每 当 
一 个 新 的 浮 点 数 入 栈 ， 对 应 的 标志 将 变 为 有 效 。 每 当 栈 中 一 个 寄存 器 的 内 容 被 弹出 ， 标 志 将 
被 清空 。 操 作 系 统 在 保存 机 器 上 下 文 时 将 使 用 这 些 标志 。 如 果 标 志 被 置 1， 寄 存 器 必须 被 保 
存 ; 如 果 标 志 被 清 0， 寄 存 器 没有 被 占用 ， 也 就 不 必 保 存 。 
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尽管 MMX 寄存 器 增加 了 复杂 度 ，Intel 却 实现 了 一 种 简化 机 制 。 当 一 个 MMX 寄存 器 
首次 被 访问 时 ， 所 有 的 标志 都 被 置 为 1， 这 确保 了 所 有 MMX 寄存 器 都 会 在 MMX 到 浮 点 
的 上 下 文 切 换 时 被 保存 。EMMS 指令 会 在 MMX 序列 结束 浮 点 操作 开始 前 清空 所 有 标志 位 。 
EMMS 指令 执行 失败 不 会 引起 不 正确 的 操作 结果 ， 但 它 可 能 会 降低 处 理 效 率 。 

并 非 所 有 Intel 处 理 器 都 支持 MMX 技术 。 有 时 需要 确定 代码 将 运行 在 哪个 处 理 需 上 。 
IA32 指令 cruin 会 返回 CPU 的 标识 并 将 其 保存 在 寄存 器 edx 中。 介绍 ceuin 指令 的 Intel X 
档 比 描述 第 一 代 微 处 理 器 整个 指令 集 的 文档 还 要 长 。 如 果实 现 了 MMX 技术 ， 一 个 标志 位 将 
被 置 1。 下 面 一 段 代 码 描述 了 怎样 检测 出 支持 MMX 技术 的 处 理 器 。 请 注意 ，cPurp 的 行为 
受到 寄存 器 eax 中 参数 的 控制 。8 


bool isMMXSupported () 
{ 
int fSupported; 
asm 


{ 


mov eax,l ;CPUID 需要 eax 中 的 参数 
cpuid ; 查询 CPU 的 标识 信息 
and edx,0x800000 7 掩 码 状 态 信息 为 MMX 标志 . 
mov fsSupported,edx ;复制 标志 到 变量 
} 
if (fSupported != 0) ;返回 标志 的 状态 
return true; 
else 


return false; 


} 


5.3.1 SIMD 技术 的 应 用 


前 面 曾经 提起 过 同 构 转换 可 以 用 来 处 理 图 像 。 下 面 的 矩阵 表示 包括 旋转 和 缩放 、 转 化 以 
及 角度 变化 在 内 的 图 像 变 换 。 


旋转 和 缩放 转化 


% 0 9 a 


=n Y k 
© 
© 
~ 
Ss 

NS x 
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角度 变化 

Glin, TAR, x 的 新 值 由 算式 = ae + ay + oz + awl, WH x 需要 4 个 乘法 
和 3 个 加 法 。 使 用 MMX 指令 ， 可 以 写 出 下 面 的 代码 : 

PMADDwd MMO,MM1 ; 完成 运算 aox + ayy and az + aw 

用 一 条 指令 完成 4 个 乘法 和 两 个 加 法 。 下 面 说 明 如 何 用 MMX 指令 完成 3 个 应 用 中 的 多 
媒体 处 理 。 

1. 色 度 键 控 

大 家 都 很 熟悉 色 度 键 控 (chroma keying) 的 作用 一 一 即便 他 们 没有 听 过 这 个 词 。 色 度 键 
控 可 以 将 两 幅 图 像 合 并 在 一 起 。 例 如 ， 在 每 天 的 天 气 预 报 节目 中 都 能 看 到 ， 当 天 气 预 报 员 


© [Intel485] Intel 处 理 器 标识 和 CPUID 指令 ，Intel，Application note AP-485。 
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站 在 一 幅 实 际 并 不 存在 的 天 气 图 前 时 ， 色 度 键 控 可 以 裁 出 一 幅 复 杂 图 像 (比如 一 个 人 )， 然 
后 将 其 加 到 另 一 幅 图 像 中 。 图 5-23 描述 了 色 度 键 控 的 效果 。 图 5-23a 是 一 个 女子 的 相片 而 
图 5-23b 是 一 副 花 的 图 像 。 图 5-23c 中 ， 女 子 的 图 像 被 加 到 了 花 的 图 像 上 ， 就 好 像 女 子 站 
在 花 前 面 一 样 。 这 里 这 些 图 像 都 被 转换 为 黑白 图 像 ， 实 际 上 这 个 女子 站 在 一 张 蓝 色 的 背景 
之 前 。 

尽管 色 度 键 控 看 起 来 似乎 需要 一 些 实用 的 魔法 ， 它 实际 上 是 通过 一 些 非常 简单 的 处 理 实 
现 的 。 图 5-23 中 的 女子 位 于 一 个 深蓝 色 的 背景 之 前 。 如 果 扫 描 这 幅 图 像 并 将 其 转换 为 像素 ， 
那么 一 个 像素 要 么 是 蓝 色 的 AR) 要 么 不 是 蓝 色 HERE MN ABA). WR 
子 图 像 中 某 个 部 分 的 颜色 与 蓝 色 背景 相同 ， 第 二 幅 图 像 中 的 对 应 部 分 将 会 显露 出 来 。 

为 了 形成 合成 图 像 ， 要 从 图 像 1 中 读 出 一 个 像素 并 从 图 像 2 中 读 出 对 应 位 置 的 像素 ， 然 
后 使 用 下 面 的 语句 确定 合成 图 像 中 像素 的 最 后 颜色 : 


if pixels = blue then pixel, = pixel, 
else pixel, = pixel, 


{y= Si 





a) 带 有 蓝 色 背 景 的 ”b) 将 出 现在 背景 中 的 第 c) 合成 图 像 
第 一 幅 图 像 二 幅 图 像 第 一 幅 图 像 出 现在 第 二 幅 
图 像 前 


图 5-23 EREI 
对 于 整 幅 图 像 ， 可 以 写 出 下 面 的 代码 ; 


for (i = 0; i < lastPixel; i++) { 
if (imageOne[i] == blue) compositeImage[i] = imageTwo [i]; 
else compositeImage[i] = imageOne [i]; 


} 
使 用 SIMD 扩展 指令 ， 可 以 每 8 个 点 为 一 组 并 行 处 理 。 而 且 ， 还 可 以 用 比较 操作 生成 位 
掩 码 ， 从 而 避免 使 用 条 件 分 支 。 请 考虑 下 面 的 代码 段 。 


; 寄存 器 MM1 初始 化 为 含有 蓝 色 掩 码 ( 8 个 蓝 色 像素 ) 
MOVEG ”MM3,imagel ;从 女子 图 像 中 读 出 8 个 像素 存 入 寄存 器 MM3 
MOVEG ”MM4,image2 ， 从 花 的 图 像 中 读 出 8 个 像素 存 入 寄存 器 MM4 


PCMPEQb MM1,MM3 ; 将 女子 的 图 像 与 蓝 色 像素 比较 以 创建 掩 码 
PAND MM4, MM1 ; 花 的 图 像 中 与 第 一 幅 图 像 中 蓝 色 部 分 对 应 位 置 的 像素 保持 不 变 
PANDN MM1,MM3 ; 女子 图 像 中 与 第 一 幅 图 像 中 非 蓝 色 部 分 对 应 位 置 的 像素 保持 不 变 
POR MM4 , MM1 ; 将 两 副 图 像 合并 

| SIMD 扩展 程序 中 使 用 的 SIMD 指令 










MOVEq ”MM3,imagel ; 从 存储 器 载 入 数据 到 MMX FFR, 代表 64 位 四 字 。 

MOVEG MM4, image2 

PCMPEQb MM1,MM3 ; 两 个 MMX 寄存 器 中 8 个 并 行 字 节 数 等 于 比较 。 
; 如 果 两 个 字 节 相等 ， 则 目的 寄存 器 被 置 为 0xFF。 
; 如 果 它 们 不 相等 ， 则 值 为 0x00。 

PAND MM4, MM1 ; 源 操作 数 与 取 反 的 目的 操作 数 进 行 与 操作 。 

PANDN MM1,MM3 ; 这 条 指令 进行 与 操作 并 将 结果 取 反 。 

POR MM4 , MM1 ; 两 个 64 位 寄存 器 进行 或 操作 。 


stem on 





— rr 
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这 些 指令 仅 用 6 个 机 器 周期 就 可 以 处 理 8 个 像素 。 图 5-24 描述 了 指令 PCMPEOb MM1, MM3 
的 作用 ， 这 里 MMI 的 初 值 为 遮 住 图 像 1 中 女子 的 蓝 色 掩 码 。 也 就 是 说 ，MM1 中 的 每 个 像 
素 都 被 设 为 与 蓝 色 背景 相同 的 值 。 

在 执行 了 并 行 比较 指令 PcMPgob mis 之 后 ， 寄 存 器 wa 中 含有 位 掩 码 。 如 果 图 
5-23a 中 的 像素 是 蓝 色 背景 的 一 部 分 ， 那 么 一 个 字 节 的 所 有 位 都 是 1， 或 者 如 果 像 素 是 女子 
的 一 部 分 ， 那 么 所 有 位 都 是 0。 在 生成 合成 图 像 时 ， 可 以 用 这 个 掩 码 选 择 女子 或 花 的 图 像 . 


指令 PCMPEQb MM1 ,MM3 
MM1 blue bive blue blue biue blu 


蓝 色 掩 
e blue blue = ee 
图 像 1 (女子 ) 





SE 并 大 度 的 框 中 的 像素 代表 蓝 色 
压缩 后 的 掩 码 寄存 器 
mmi| oo | oo M o | oo Eg (FF = 图像 1 中 的 蓝 色 像 素 ) 


图 5-24 使 用 蓝 色 位 掩 码 创建 图 像 掩 码 
图 5-25 描述 了 如 何 使 用 掩 码 寄存 器 遮盖 图 像 2 ( 花 ) 中 的 位 ,图像 1 中 与 该 位 对 应 的 位 
不 是 蓝 色 。 如 果 相 应 的 掩 码 位 为 1， 则 指令 PAND m, m 将 保持 寄存 器 MM4 中 的 位 不 变 。 
当 这 条 指令 结束 时 ，mma 中 加 阴影 的 像素 表示 花 。 


指令 PAND mm4, MM1 执行 后 的 结果 FH 
MM4[¥ | % a a a» Te a Tm 0R G ag 
z2eee 

HE F 

MMI[ oo [ oo WN oo [00 WN MFE 
Sass 

oo o BRR 00 o RR 828k BES ES 

图 像 1 遮盖 gsis 





图 5-25 用 掩 码 选择 图 5-23 b 


图 5-26 通过 取 反 的 与 操作 PANDN mma, mm3 复制 图 像 1 中 对 应 掩 码 位 为 0 的 像素 。 
令 结束 时 ， 寄 存 器 ml 的 内 容 是 背景 为 蓝 色 的 女子 图 像 像素 和 0。 


令 PANDN MM1,MM3 执行 后 的 结果 Oy s 
MMI EJES Sam o | 00 E FF 拖 码 寄 存 器 ects 
R< ee 
ws TT TT Deda de deer Bese 
SHELES 
图 像 1 被 图 像 1 中 的 EREET 
MM1[_x, | x |0 |x Ta | 00 | 00 [| 00 | EE 
— REMMI VSSE ES 


5-26 用 位 掩 码 选择 源 图 像 


现在 已 经 得 到 了 两 个 部 分 被 遮盖 的 图 像 和 0， 接 下 来 用 逻辑 或 操作 PoR ma, mmi 将 两 幅 
图 像 合 并 在 一 起 ， 如 图 5-27 所 示 。 

2. 淡 入 和 淡出 

另 一 个 能 很 好 利用 SIMD 扩展 指令 的 视频 处 理应 用 是 图 像 合并 。 大 多 数 人 都 很 熟悉 溶解 
特效 ， 一 幅 图 像 渐渐 淡出 而 另 一 幅 图 像 炎 入。 如 果 我 们 将 图 像 A( 旧 图 像 ) 与 图 像 B( 新 图 像 ) 
合并 ， 则 有 

输出 = fade x 图 像 A+(1 —fade) x ARB 
这 里 变量 fade 代表 合并 图 像 中 旧 图 像 的 比例 ， 其 值 在 0 一 1 之 间 。jaae 的 值 从 1 减 小 
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到 0 的 速度 决定 了 溶解 所 需 的 时 间 。 将 图 像 A 重新 记 作 4， 图 像 B 重新 记 作 B， 并 将 等 式 修 
改 为 
# H = fade X (4 一 B)+B 








指令 POR MM4 ,MMI 执行 后 的 结果 EE Ee 
WERNER GE Sel SE 

BETE 

KELEKELE EF 

Sou" 2e8 

a Ea 98 23 8 

meena 。 Flees 





图 5-27 SF PS ee m FER 
Peleg 等 人 ?介绍 了 一 种 使 用 解压 缩 、 并 行 乘法 和 重新 压缩 操作 的 溶解 算法 。 


PXOR MM7 , MM7 ; 寄存 器 MM7 置 为 0 (后 面 需要 哑 元 0 ) 
MOVa MM3 , fade ; RA fade 的 值 (复制 到 4 个 字 中 ) 

MOVd MMO, imageA ; 载 入 源 图 像 A 中 的 像素 

Mova MM1, imageB ; 载 入 源 图 像 B 中 的 像素 

PUNPCKlbw  MMO,MM7 ; 8 位 像素 解压 缩 ， 转 换 为 寄存 器 MMO 中 的 字 
PUNPCKI bw  MM1,MM7 ; 8 位 像素 解压 缩 ， 转 换 为 寄存 器 MM1 PHS 
PSUBw MMO , MM1 ; 从 图 像 A 中 减 去 图 像 B 

PMULhw MMO , MM3 ; 差 乘 以 fade HE 

PADDwq MMO, MM1 ; 结果 与 图 像 B 相 加 得 到 fade X (A-B) +B 
PRCKUSwb MMO,MM7 ; 将 16 位 结果 重新 压缩 为 字 节 形式 


两 条 mova 指令 从 图 像 A 和 B 中 取出 像素 并 将 它们 保存 在 寄存 器 wo 和 Ma 内 。 两 条 
PUNPRACKIbw 指令 是 解压 缩 操作 数 ， 将 字 节 数据 扩展 为 字数 据 。 这 个 操作 是 必需 的 ， 因 为 接 下 
来 的 乘法 只 能 对 字数 据 进行 。 请 注意 PuNPACK1bw 指令 需要 两 个 源 操作 数 (这 里 第 2 个 源 操 
作 数 是 值 为 全 0 的 哑 寄 存 器 MM7 ) 。 

PSUBW, PMULhw 和 PADDwg 这 3 个 操作 按照 公式 “输出 = fade x AR A+ (1 — fade) x 
图 像 B” 计 算 新 图 像 的 每 个 元 素 ， 完 成 所 有 的 处 理 。 

一 个 操作 ，PacKkuswp， 将 字 长 压缩 为 字 节 。 图 5-28 描述 了 这 一 组 操作 。 请 注意 ， 
这 个 过 程 只 能 用 于 同一 颜色 的 四 像素 组 。 必 须 对 3 种 颜色 中 的 每 一 种 颜色 重复 一 次 这 个 过 程 
(还 有 alpha 值 ， 如 果 使 用 了 的 话 )。 

3. BT 

AY E—-TREN AIRE, CA -MERW AREER ERA. Blin, aX ie 
大 值 和 最 小 值 分 别 为 20 A 4, SUX AS RE RIA. AX = 15 且 将 其 加 7， 则 
X=20, AA X KERA 20 且 所 有 高 于 20 的 值 都 将 被 修改 为 20。 这 个 操作 应 该 会 让 读者 回 
忆 起 饱和 运算 。 

当 一 个 图 形 被 另 一 个 图 形 遮盖 时 ， 图 形 中 将 使 用 一 个 受 限 的 值 。 因 此 ， 有 必要 知道 什么 
时 候 裁 前 被 遮盖 的 背景 图 像 或 将 其 隐藏 在 前 景 之 后 。 若 要 将 x 的 值 裁剪 为 大 于 等 于 x A) 
于 等 于 xiiw,， 可 使 用 下 面 的 语句 : 


if X < Kom then x = xi, 
else if x > Xpigh then X = Xhigh 


使 用 传统 汇编 语言 ， 可 以 使 用 下 面 类 似 一 般 CISC 代码 的 语句 : 


© Alex Peleg, Sam Wilkie, and Uri Weiser, “ Intel MMX for Multimedia PCs” , Communications of the ACM, January 
1997, Vol 40, No 1, pp. 25-38. 
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CMP x,xLow ; x WAT FIR? 
BLT FixLow ; 车 是， 则 将 x 的 值 改 为 最 小 值 
CMP x,xHigh ; x 的 值 大 于 上 限 3 
BGT FixHigh ; 若是 ， 则 将 六 的 值 改 为 最 大 值 
BRA Exit ; 执行 这 条 语句 表明 x 的 值 在 范围 内 
FixLow MOV x,x_low ; 将 x 的 值 改 为 最 小 值 并 退出 
BRA Exit 
FixHigh MOV x,xHigh ; 将 x 的 值 改 为 最 大 值 并 退出 


Exit 


源 操作 数 4 MOVA MMO, image A 后 的 MM0 
源 操作 数 5| B | B | Bo | B Move m, image B 后 的 MMI 
PSUBw MMO, mm1 
4-8 的 差 [ (计算 两 幅 图 像 之 间 的 差 ) 





fade 值 







| mm3 中 含有 被 复制 的 fade 值 


PMULhw MM0 , mm3 


lAr B) (fade HEME) 


fade x 差 fade x (4,-B,) fade x (4,—B,) fade x (4-8, ) fade x 


sanss O a | | | | vw 


合并 后 的 图 像 | Output, ， PADDw MMO0,MM1 





重新 压缩 的 数据 | | OT PACKuswb MMO, MM1 


图 5-28 合并 图 像 
利用 ARM 的 条 件 执行 可 以 更 好 地 完成 这 一 工作 。 请 考虑 下 面 的 代码 : 
CMP _r0, #xLow x AEDT FIR? 


CMP r0,#xHigh x AAT EIR? 

MOVGT r0,#xHigh ; 若是 ， 则 将 x 的 值 改 为 最 大 值 

SIMD 扩展 指令 为 实现 裁剪 操作 提供 了 一 种 有 用 的 手段 ， 而 无 需 使 用 条 件 分 支 指令 。 下 
面 的 代码 段 描述 了 无 符号 数 的 裁剪 方法 。 饱 和 运算 的 应 用 是 裁剪 的 关键 。 图 5-29 E T AR 
前 与 饱和 限制 之 间 的 关系 ,并 给 出 了 一 个 裁剪 的 例子 。 在 下 面 的 代码 中 ， 选 项 u 代表 无 符 
F, s 代表 饱和 运算 ，w 代表 字 (16 位 ) 操作 。 


MOVLT r0,#xLow 若是 ， 则 将 x 的 值 改 为 最 小 值 


FFFF,, 最 大 的 16 位 值 


高 RDI EIR 


人 允许 的 范围 


裁 前 下 限 





Cengage Learning 2014 


0000,, 最 小 的 16 位 值 @ 


图 5-29 ”裁剪 和 饱和 运算 
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PADDusw MMO, 0xFFFF-high ; 裁剪 到 最 天 值 
PSUBusw MMO, 0xFFFF-high+low ; 裁 前 到 最 小 值 
PADDw MMO, low ; 调整 结果 


现在 来 遍历 这 段 代 码 。 第 一 条 指令 ，Pappusw MM0,0xFFFF-high， 给 MMO 中 等 待 裁剪 的 
源 操作 数 加 上 一 个 常数 。 这 个 常数 是 16 位 最 大 值 减 去 裁 前 上限。 如 果 被 裁剪 的 数 超过 了 上 
限 ， 将 通过 饱和 运算 将 其 拉 回 上 限 并 保存 起 来 。 第 二 个 操作 将 在 下 限 对 这 个 操作 数 进行 同样 
的 操作 。 最 后 一 个 操作 加 上 先前 减 去 的 下 限 值 。 这 个 序列 将 完成 下 面 的 运算 : 

x=x+ 0xFFFF — high — OxFFFF + high — low + low =x 

也 就 是 说 ， 若 x 的 值 在 范围 内 ， 它 不 会 受到 这 串 操作 的 影响 。 如 果 z 在 范围 以 外 ， 它 将 
由 于 饱和 机 制 而 被 裁剪 。 请 考虑 下 面 的 例子 ， 其 中 使 用 4 位 无 符号 整数 运算 ， 值 的 范围 为 
0 一 15。 我 们 将 使 用 裁剪 限制 high = 12 H low = 5。 请 看 表 5-6 中 列 出 的 测试 实例 (图 5-29 
还 通过 当 一 个 值 超 过 了 裁剪 的 上 限时 发 生 的 A、B 、C、D 等 步 又 来 说 明 裁 前 过 程 )。 

表 5-6 ”用 饱和 运算 实现 裁剪 


操作 实例 3 

初 值 3 
PADDusw MM0,15-12 6 
PSUBusw MM0,15-12+5 -2—0 


PADDw MMO,5 





注 : 所 有 饱和 运算 都 是 4 位 的 ， 值 在 0 一 15 之 间 ， 操 作 17 一 15 表明 结果 17 将 被 裁剪 为 饱和 运算 的 上 限 15。 


这 个 例子 表明 ， 测 试 值 为 7 (范围 内 ) 时 结果 为 15。 然 而， 测试 值 14 超过 了 最 大 值 ， 
因此 可 得 裁剪 后 的 结果 为 12。 同 样 ， 值 3 低 于 下 限 ， 裁 前 后 的 结果 为 15。 


5.4 流 扩 展 和 SIMD 技术 的 发 展 


自从 引入 第 一 代 SIMD 扩展 指令 以 来 ，SIMD 指令 一 直 在 不 断 发 展 ， 少 数 MMX 扩展 
指令 被 一 代 接 一 代 的 新 扩展 指令 所 取代 。 不 过 ， 重 要 的 是 基本 原则 始终 没 变 : 能 够 处 理 一 
个 寄存 器 中 多 个 数据 的 能 力 ， 以 及 能 够 完成 多 媒体 和 密码 等 其 他 领域 应 用 中 关键 操作 的 
能 力 。 

人 们 觉得 很 短 的 一 段 时 间 在 微 处 理 器 的 世界 中 却 是 很 长 一 段 时 间 。1999 年 ， 在 Intel AK 
续 前 进 并 发 布 了 SSE (Stream SIMD Extension) 扩展 指令 集 之 前 ，MMX 架构 刚刚 发 布 。 这 
JE SSE 指令 首先 出 现在 Pentium II 处 理 器 中 ， 包 含 两 个 部 分 : 一 组 叫 作 新 媒体 指令 ( New- 
media Instruction), X} MMX 寄存 器 组 进行 处 理 的 整数 指令 ; 以 及 一 组 全 新 的 对 寄存 器 组 进 
行 处 理 的 新 浮 点 SIMD 指令 。 

在 相当 大 的 程度 上 ，Pentium III 的 新 多 媒体 指令 是 那些 没有 一 次 全 部 在 硅 片 上 实现 的 
MMX 扩展 指令 。 其 中 有 些 是 对 MMX 指令 的 扩充 ， 有 些 则 提供 了 浮 点 处 理 能 力 。 一 位 评论 
员 在 为 SSE 撰写 简介 时 曾 说 : 这 是 Intel 第 二 次 尝试 把 MMX 做 好 。 幸 好 Intel 一 直 处 在 与 
IA32 兼容 处 理 器 厂商 CLEAN AMD) 的 竞争 之 中 ， 并且 它 推迟 了 创新 ， 直 至 完美 不 再 是 一 种 
选择 。 但 今天 可 能 不 再 是 这 样 了 ， 因 为 Inte 似乎 已 经 成 为 PC 体系 结构 竞争 中 毋庸 置疑 的 胜 
利 者 ， 即 便 AMD 依然 是 主要 的 竞争 对 手 。 
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SIMD 计算 的 效率 

SIMD 在 增强 计算 机 体系 结构 方面 的 作用 有 多 大 ? 之 前 给 出 的 实例 和 代码 段 应 该 给 
读者 留 下 了 深刻 印象 。Intel 发 布 的 基准 程序 表明 ， 在 同样 的 时 钟 频 率 下 运行 一 个 视频 处 
理应 用 ,支持 MMX 的 处 理 器 的 性 能 与 不 支持 MMX 的 相 比 为 4.6:1。 

Tala 等 人 在 一 篇 论文 中 ， 通 过 证 明 其 他 计算 开销 可 能 会 抵消 SIMD 计算 的 收益 ， 
HETH SIMD 扩展 指令 时 要 注意 的 问题 。Talla 的 论文 提出 了 SIMD 效率 的 概念 ， 它 
被 定义 为 计算 所 需 的 时 钟 周期 数 与 实际 执行 所 用 的 时 钟 周期 数 的 比值 。 例如， 要 评估 
| 在 某 个 特定 机 器 上 完成 矩阵 乘 算法 的 效率 。 因 为 两 个 NxN 矩 阵 相 乘 的 计算 复杂 度 为 
OUN)， 可 以 假设 一 个 8x8 矩 阵 乘 法 需要 512 个 周期 一 假设 浮 点 乘 累加 器 是 完全 流 

如 果 乘 法 器 和 加 法 器 采用 SIMD 技术 ,每 周期 完成 4 个 操作 ， 那 么 SIMD 效率 为 
512/128=4。Talla 假设 如 果 一 台 真 实 的 机 器 需要 2 500 个 周期 ， 对 应 于 SIMD 效率 512/2 500= 
20%， 为 何 SIMD 效率 这 么 低 ? 

Talla 用 一 一 段 代码 说 明了 使 用 SIMD 扩展 指令 完成 多 媒体 处 理 时 的 开销 。 代 码 共有 
29 和 行 ， 每 一 行 都 带 有 描述 其 功能 ( 载 入 /地 址 开销 ， 地 址 开销 ， 初 始 化 开销 ， 载 入 开销 ， 
真正 的 计算 ，SIMD 规约 ，SIMD 转换 开销 ， 保 存 开销 ， 分 支 以 及 分 支 开 销 ) 的 注释 。 在 
| 这 29 行 代码 中 ， 只 有 4 行 被 标记 为 真正 的 计算 。 

Tall 所 标 出 的 开销 包括 计算 访问 正在 被 处 理 的 数据 结构 所 需 的 地 址 ， 载 入 和 保存 
(将 数据 从 存储 器 中 读 出 或 存 入 存储 器 )， 以 及 分 支 开 销 。 

Ma 等 人 在 另 一 篇 论文 8 中 分 析 了 3D 几何 处 理 中 的 SSE 扩展 指令 ， 并 认为 加 速 比 在 
3.0 至 3.8 之 间 ， 这 是 一 个 非常 可 观 的 结果 。Ma 认为 若 要 用 SIMD 扩展 指令 获得 最 佳 性 
能 ， 某 些 因素 是 必须 要 考虑 的 ， 比 如 数据 在 存储 器 中 的 布局 以 及 仔细 的 预 取 。 

尽管 MMX 等 第 一 代 SIMD 扩展 指令 会 受到 一 些 限 制 (不 止 是 因为 要 共享 存储 器 )， 
但 这 些 年 来 所 有 主流 处 理 器 的 设计 者 都 采用 了 SIMD 扩展 指令 ， 这 意味 着 它们 的 影响 是 
有 益 的 。 不 过 ， 如 同 所 有 体系 结构 加 强 和 创新 技术 一 样 ， 用 户 也 必须 了 解 它们 的 限制 。 
因为 流 扩 展 指 今 的 开销 很 大 ， 它们 的 效率 可 能 严重 依赖 应 用 的 特性 和 规模 。 








天 一 一 一 一 一 
| 





MMX 操作 (并 行 的 加 、 减 、 乘 和 乘 累 加 ) 有 助 于 加 速 蘑 些 多 媒体 应 用 。 Ait, MMX 
几乎 没有 为 视频 处 理 和 视频 编码 / 解码 提供 什么 支持 。SSE 体系 结构 的 新 媒体 指令 弥补 了 这 
一 不 足 。 

新 媒体 指令 包含 一 些 常 用 的 功能 一 一 数据 传输 、 压 缩 和 数据 处 理 。 表 5-7 列 出 了 一 些 新 
的 数据 传输 /压缩 指令 。 与 最 初 的 MMX 指令 相 比 ，SSE 的 数据 处 理 指令 显得 相当 奇怪 。 例 
如 ，PsADbw ( packed sum of absolute difference) 指令 计算 两 个 源 操作 数 中 每 一 对 字 节 数 的 绝 
对 值 差 ， 然 后 对 这 个 8 个 绝对 值 差 求 和 ， 并 将 结果 保存 在 16 位 字 目 的 寄存 器 的 低 部 分 。 因 
此 指令 Psapbw Mo ,MMXxI 的 功能 为 

Lo | arb | 


© Deepu Talla, Lizy Kurian John, and Doug Burger, “ Bottlenecks in multimedia processing in SIMD style extension 
and architectural enhancement” , ZEEE Transactions on Computers, Vol. 52, No. 8, August 2003, pp. 1015-1031. 

© Wa-chun Ma, and Chia-lin Yang. “ Using Intel Streaming SIMD Extension for 3D Geometry Processing ” 
Proceedings of the 3rd IEEE Pacific-Rim Conference on Multimedia, 2002. 
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表 5-7 SSE 整数 操作 的 某 些 实例 


操作 | 指令 助 记 符 | 动作 
ma “从 一 个 MMX 寄存 器 中 的 4 个 16 位 字 中 读 出 一 个 ， 并 将 其 复制 到 一 个 32 位 
寄存 器 的 低 半 部 分 
a 从 一 个 32 位 寄存 器 的 低 半 部 分 载 人 一 个 字 ， 并 将 其 复制 到 一 个 MMX 寄存 器 
的 4 个 字 之 一 


将 掩 码 字 节 转 ON 该 指令 取出 一 个 MMX 寄存 器 中 8 个 字 节 的 符号 位 ， 并 将 其 复制 到 一 个 寄存 
换 为 整数 器 的 最 低 字 节 。 因 此 ， 这 个 8 位 的 字 是 由 8 个 符号 位 构成 的 掩 码 


这 是 一 条 三 操作 数 指令 ， 带 有 一 个 源 操 作 数 、 一 个 目的 操作 数 外 加 一 个 8 位 
压缩 重 排 字 oN 立即 数 。 重 排 指令 使 用 包含 4 个 字 的 源 寄 存 器 和 目的 寄存 器 ， 并 按照 立即 操作 


数 指定 的 编码 重新 安排 这 些 字 的 顺序 。 新 的 字 序列 将 被 保存 在 目的 寄存 器 中 。 
即 可 以 从 两 个 寄存 器 中 剪 切 出 字 ， 并 将 它们 复制 到 目的 寄存 器 中 


这 里 a, 与 六 分 别 是 寄存 器 MMX0 和 MMX1 的 第 i 个 字 节 。 如 果 源 操作 数 和 目的 操作 
数 的 值 分 别 为 : 


01 03 10 45 Fl 34 FA D2 
11 CA OD FF 00 00 98 Al 


我 们 会 得 到 8 个 差 : 

-10 -C7 03 -46 +F1 +34 +62 +31 

这 些 数 的 绝对 值 为 10 c7 03 46 F1 34 62 31， 它 们 的 和 为 02D8ie。 这 条 指令 对 于 视频 
中 连续 帧 之 间 的 运动 估计 非常 重要 。pPsapbw 指令 将 MMX 指令 的 性 能 提高 了 两 倍 。9 

另外 一 条 功能 强大 的 新 媒体 指令 是 计算 两 个 数 的 平均 值 。Pavcb mmx., mmxs ( 当 源 操作 数 
在 存储 器 中 时 是 PAVGb mma mea ) 指令 对 字 节 进行 操作 而 PAVGw hatxs,MMxs 指令 对 字 进 行 操 
作 。 这 条 压缩 平均 值 (packed average) 指令 会 将 源 操作 数 中 的 无 符号 数据 元 素 与 目的 寄存 
器 中 的 无 符号 数据 元 素 ， 以 及 进位 输入 一 起 相 加 。 并 行 加 法 的 每 个 结果 独立 地 被 右 移 一 位 。 
每 个 元 素 的 最 高 位 补 对 应 和 的 进位 位 。 

有 些 操 作 要 求 确定 两 个 值 中 最 大 或 最 小 的 一 个 (例如 ， 当 裁剪 或 限制 信号 时 )。 新 媒 
体 指 令 提 供 了 4 条 指令 ， 它 们 都 是 这 个 操作 的 不 同形 式 。 压 缩 有 符号 字 最 大 值 指令 PMAXsw 
MMa,MMS， 将 比较 4 对 数 的 大 小 并 返回 每 一 对 数 的 最 大 值 。 而 PMaxbu 指令 将 用 无 符号 算术 对 
8 字 节 数据 进行 同样 的 操作 。 对 应 的 PMINsw 和 PMINub 指令 分 别 返 回 4 个 字 或 8 个 字 节 最 小 
值 。 据 报道 ，pwMr 指令 可 使 语音 识别 处 理 加 速 19%， 因 为 求 两 个 元 素 的 最 小 值 是 一 些 语 音 
识别 算法 中 最 常用 的 操作 。 


5.4.1 浮 点 软件 扩展 


SSE 体系 结构 扩展 支持 浮 点 操作 并 使 用 8 个 新 的 128 位 寄存 器 ，XXM0 ~ XMM7。 这 
些 寄存 器 不 属于 IA32 的 现 有 体系 结构 ， 比 如 MMX 寄存 器 。 新 的 SIMD 浮 点 寄存 器 要 求 修 
MC IA32 的 基本 体系 结构 ， 操 作 系统 也 必须 了 解 这 些 变化 。 也 就 是 说 ， 不 能 对 操作 系统 和 蜡 
常 处 理 例 程 隐藏 这 些 寄 存 器 。 流 扩展 指令 所 需 的 这 些 新 的 体系 结构 可 见 的 处 理 器 状态 是 自 
80386 以 来 对 IA32 系列 处 理 器 体系 结构 状态 的 最 大 扩展 之 一 。 这 里 没有 考虑 486 处 理 器 增 
加 学 点 操作 (在 80386 系统 中 由 外 部 协 处 理 器 实现 ) 或 是 增加 能 够 支持 多 处 理 的 原子 操作 。 


© S.K. Raman, V. Pentkovski, and J. Keshava, “ Implementing Streaming SIMD Extension and the Pentium III 
Processor” , JEEE Micro, July-August 2000, pp.47-57. 
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新 的 SSE 状态 带 有 自己 专用 的 中 断 向 量 (用 于 处 理 数字 异常 ) 以 及 一 个 新 的 控制 和 状态 
寄存 器 MXCSR， 它 定义 了 操作 模式 并 显示 了 SSE 状态 标志 。 当 然 ， 旧 的 MMX 状态 仍然 属 

8 个 MMX 寄存 器 中 每 个 都 是 128 位 宽 ， 可 以 存放 4 个 32 位 单 精 度 浮 点 数 。SIMD 浮 点 
操作 要 么 处 理 全 部 4 对 浮 点 数 (压缩 模式 )， 要 么 仅 处 理 浮 点 数 中 最 低 的 一 对 (标量 模式 ) 
因为 XMM 浮 点 寄存 器 是 与 MMX 寄存 器 分 离 的 ，SIMD 浮 点 和 MMX (或 传统 浮 点 ) 指令 
可 以 同时 执行 ,不必 担心 寄存 器 的 保存 。 

浮 点 SIMD 操作 与 对 应 的 整数 操作 (例如 ，SSE 提供 了 浮 点 加 法 、 减 法 、 除 法 、 乘 法 和 
比较 ) 类 似 。 

RCP 和 RSORT 是 两 个 有 趣 的 浮 点 运算 ,它们 分 别 计算 倒数 和 反 平 方 根 。 这 些 指令 使 用 
查找 表 方 法 获得 倒数 (或 反 平 方 根 )， 速 度 非常 快 。 不 过 ， 查 找 表 的 结果 只 能 精确 到 大 约 12 
位 ， 对 于 某 些 音频 和 视觉 应 用 来 说 足够 了 。 如 果 这 些 指令 无 法 提供 所 需 的 准确 度 ， 只 能 使 用 
牛顿 一 拉夫 进 迭 代 法 计算 大 约 22 位 准确 度 的 倒数 (或 反 平方 根 )。 请 参考 第 2 章 介绍 浮 点 运 
算 时 所 讨论 的 迭代 技术 。 


AMD 3DNow! 技术 

RF Intel 的 IA32 体系 结构 已 经 发 展 了 几 十 年 ， 但 PC 机 的 成 功 使 得 其 他 公司 不 可 
避免 地 试图 赢得 一 部 分 市 场 份 额 。 可 以 为 处 理 器 的 某 些 方面 申请 专利 ， 比 如 它 实现 多 处 
理 的 方式 ， 但 不 能 为 一 个 指令 集 申 请 专利 。 因 此 ， 任 何人 都 可 以 制造 出 一 块 读 取 并 执行 
IA32 体系 结构 操作 码 的 芯片 ， 并 获得 与 本 地 IA32 处 理 器 相同 的 结果 。 

在 20 世 纪 90 年 代 ， 有 几 家 公司 都 能 制造 出 与 IA32 体系 结构 功能 等 价 的 产品 一 一 
通常 面向 低 价 市 场 ， 因 为 Intel 接近 垄断 的 地 位 ， 它 根本 无 需 担 心 价格 过 高 。 到 了 20 世 
纪 90 FAA, AMD 成 为 Intel 唯一 的 主要 竞争 对 手 (除了 曾经 在 2000 年 因 推 出 瞄准 笔 
记 本 市 场 的 低 功 耗 IA32 芯片 而 突然 出 现在 人 们 视线 中 的 Transmeta), AMD 发 布 了 使 用 
T 3DNow! 技术 的 KK6-2 MABE, RI SIMD 浮 点 扩展 指令 市 场 击败 了 Intel, 

AMD 的 3D Now! 技术 与 它 自己 的 SIMD 浮 点 扩展 指令 一 起 集成 在 MMX 体系 结构 
中 。 像 mtel 一 样 ，AMD 在 进行 MMX 操作 时 ， 也 将 IA32 体系 结构 的 浮 点 寄存 器 用 作 
MMX 寄存 器 。 不 过 ，AMD 继续 将 该 模型 用 于 其 浮 点 扩展 指令 中 ， 即 用 同样 的 浮 点 寄存 
器 保存 两 个 3D Now! 技术 的 32 位 压缩 IEEE 单 精度 浮 点 值 。 

AMD 的 浮 点 数 格式 仅 支 持 一 种 舍 入 模式 (向 最 近 的 偶数 会 入 )， 而 且 整 数 与 浮 点 数 
间 的 所 有 转换 都 采用 截断 操作 。 和 MMX 技术 一 样 ，AMD 的 浮 点 操作 也 不 会 引发 异常 。 
mA, 正常 情况 下 会 产生 下 溢 或 上 溢 的 浮 点 操作 会 生成 饱和 值 。 所 有 小 于 可 表示 的 最 小 
规格 化 数 的 输入 和 输出 都 将 被 清 0。 

下 面 是 3D Now! 浮 点 指令 集 的 描述 。 正 如 读者 所 看 到 的 ， 它 带 来 了 一 些 惊喜 。 在 
2000 年 ，AMD 对 3D Now! 进行 了 扩展 ， 引 入 了 一 些 DSP 专用 指令 。 最 后 ，3D Now! 
难以 逃脱 失败 的 命运 ， 因 为 它 的 浮上 志和 整数 寄存 器 都 使 用 现 有 的 IA32 浮 点 寄存 器 。 
2010 +, AMD 宣布 不 再 支持 3D Now!. 

指令 助 记 符 指令 描述 

PFADD 压缩 浮 点 加 法 

PFSUB 压缩 浮 点 减法 
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FPSUBR 压缩 浮 点 反 向 减法 
PFACC 压缩 浮 点 累加 
PFCMPGE 压缩 浮 点 比较 ， 大 于 或 等 于 
| PFCMPGT 压缩 浮 点 比较 ， 大 于 
| PFCMPEQ 压缩 浮 点 比较 ， 等 于 
| PFMIN 压缩 浮 点 最 小 值 
| PFMAX 压缩 浮 点 最 大 值 
PIF2D 压缩 双 精 度 浮 点 ，32 位 整数 到 浮 点 数 转 换 
PF2ID 压缩 浮 点 数 到 32 位 整数 ， 双 精度 数 转换 
PFRCP 压缩 浮 点 倒数 近似 值 
PFRSQRT 压缩 浮 点 反 平 方 根 近似 值 
PFMUL 压缩 浮 点 乘法 
PFRCPIT1 Ei RF RARER —H 
PFRSQIT1 FEY IF RAF RIER ART 
PFRCPIT2 压缩 浮 点 倒数 迭代 第 二 步 
PMULHRW 带 合 入 压缩 浮 点 16 位 整数 乘法 


| PAVGUSP 压缩 浮 点 压缩 8 位 无 符号 整数 平均 值 





5.4.2 intel 的 第 三 层 多 媒体 扩展 


Intel Pentium 4 发 布 了 另外 一 组 叫 作 SSE2 ( SIMD Streaming Extension) 的 SIMD 流 扩 
展 指令 ， 它 通过 增加 144 条 新 指令 以 及 增加 新 的 数据 类 型 ， 对 MMX 和 SSE 体系 结构 都 进 
行 了 扩展 。 新 增 的 数据 类 型 有 128 位 压缩 双 精 度 浮 点 数 ，64 位 四 字 整 数 ， 以 及 4 个 128 位 
整数 数据 类 型 。 压 缩 浮 点 类 型 可 将 两 个 IEEE 64 位 双 精 度 浮 点 数 压缩 到 一 个 8 字数 据 中 。64 
位 四 字 整 数 支 持 有 符号 值 和 无 符号 值 , .128 位 整数 可 以 是 2 个 四 字 、4 个 双 字 、8 个 字 或 16 
个 字 节 整数 压缩 存放 在 一 起 。 表 5-8 列 出 了 Intel 对 其 IA32 体系 结构 进行 扩展 的 历史 。 
表 5-8 Intel 流 扩展 指令 的 发 展 历史 









四 核 Intel Xeon 73XX 
Intel Core 2 Quad 6XXX 
Intel Core 2 Duo 7XXX 
Intel Core 2 Solo 2XXX 
Intel Pentium 双核 


Intel Xeon 74XX 系列 
四 核 Intel Xeon 54XX 
双核 Intel Xeon 52XX 
Intel Core 2 Quad 9XXX 
Intel Core 2 Duo E7200 









Intel Pentium II 处 理 器 
Intel Pentium I 处 理 器 
Intel Pentium 处 理 器 


IA32 















Intel Xeon 处 理 器 


Sans Intel Pentium 4 处 理 器 


双核 Intel Xeon 70XX 
双核 Intel Xeon 2.8 
支持 SSE3 的 Intel Xeon 处 理 器 
Intel Core Duo 

Intel Core Solo 

Intel Pentium D 


支持 SSE3 的 Intel Pentium 4 处 理 器 





Intel Core i7 处 理 器 
Intel Core i5 处 理 器 
Intel Core i3 Ab FH AE 
Intel Xeon SSXX 系列 


SSE3 
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双 精 度 浮 点 指令 支持 数据 传送 、 算 术 运 算 、 比 较 、 转 换 、 逻 辑 和 重 排 等 操作 。 浮 点 
SSE2 指令 可 以 传送 压缩 双 精 度 浮 点 数 并 对 其 进行 算术 运算 ， 以 及 在 双 精 度 和 单 精度 浮 点 数 
之 间 进 行 转换 。 

PADDO (压缩 四 字 加 法 ).ewurupo (无 符号 双 字 乘法 ).PsHuFD ( 重 排 XMM 寄存 器 中 的 双 字 ) 
以 及 moveane (将 整数 数据 从 MMX 寄存 器 复制 到 XMM 寄存 器 ) 是 一 些 新 增 的 新 整数 指令 。 
所 有 现 有 的 64 位 MMX 和 SSE 整数 指令 都 被 扩展 为 能 够 处 理 XMM 寄存 器 中 的 128 位 操 
作 数 。 

Pentium 新 一 代 对 多 媒体 的 SSE2 体系 结构 的 支持 相当 凌乱 ， 它 沿 着 一 条 不 再 是 最 优 的 
道路 ， 选 择 了 许多 指令 。 仅 仅 将 寄存 器 名 MMO 替换 为 XMMO 是 无 法 将 MMX 代码 转换 为 
SSE2 代码 的 。 也 不 能 用 mvo 访问 128 位 寄存 器 ; 而 是 要 使 用 Moveap 指令 。 同 样 ， 还 必须 使 
用 新 的 重 排 和 移 位 指令 。 


5.4.3 Intel SSE3 和 SSE4 指令 


Intel 的 SSE3 扩展 指令 是 2004 年 随 Pentium 4E 处 理 器 推出 的 。 它 们 使 用 128 位 寄存 
器 ， 没 有 增加 新 的 数据 类 型 ， 但 增加 了 14 条 面向 应 用 的 新 指令 ， 比 如 浮 点 到 整数 的 转换 、 
复数 算术 运算 、 视 频 编码 以 及 线程 同步 等 。2006 年 ， 它们 又 增加 了 16 条 指令 ,被 扩展 为 
SSE3 指令 集 ， 用 于 Core Duo 中 。 术 语 Core Duo 表示 在 一 块 芯片 上 放 两 个 处 理 器 以 提高 
性 能 。 

复数 算术 运算 对 于 数字 信和 号 处 理应 用 非常 重要 ， 特 别 是 在 傅 里 叶 变 换 领域 。 一 个 复数 = 
可 被 表示 为 atbi， 这 里 i 是 -1 的 平方 根 。 两 个 复数 a,+b,i 和 a,+b,i AYALA aya, 一 b,b, + (a,b, + 
ab, is SSE3 为 复数 运算 提供 T 支持 ， RDDSUBPS OperandA,OperandB, JX 4! operandaA 包 = 
a, a, @, 和 wa， 而 operanaB 包含 b;，b;，bi 和 如， 指令 会 生成 as + by, a, b, a tbn 
ao — boc 

图 5-30 描述 了 指令 PsHUFB mm,m64 的 功能 ， 它 取出 目的 寄存 器 中 的 8 个 字 节 ， 并 按照 
源 寄 存 器 中 对 应 字 节 的 内 容重 新 排列 它们 的 顺序 。 源 字 节 指 明了 目的 寄存 器 的 每 个 字 节 是 如 
何 由 源 操作 数 得 到 的 。 这 一 设置 使 我 们 既 可 以 重组 字 节 也 可 以 复制 它们 。 例 如 ， 通 过 重组 和 
复制 可 以 将 序列 0x12345678 重新 排列 为 0x12785612。 不 过 ， 和 若 源 操作 数 中 某 个 字 节 的 最 高 
位 为 1 (如 图 5-30 中 的 OxFF 和 0x80), 那么 目的 操作 数 中 对 应 的 字 节 将 被 清 0。 


若 第 8 位 为 1， 则 将 目的 寄 
存 器 中 对 应 字 节 清 0 


a eee ove] mere 
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字 节 7 字 节 7 clear clear 字 节 1 字 节 0 字 节 0 字 节 0 
图 5-30 SSE3 字 节 重组 指令 
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2007 4, Intel fifi Core2 Duo 一 起 发 布 了 下 一 个 流 扩展 指令 集 一 -SSE4。SSE4 的 目标 
是 支持 编 解码 器 (音频 /视频 数据 流 的 编码 和 解码 ) 和 密码 应 用 。 它 们 通过 为 非 对 齐 的 数据 
对 象 提供 更 多 的 支持 扩展 了 流 指令 。 由 54 条 指令 构成 的 SSE4.1， 以 及 由 另外 7 条 指令 组 成 
的 SSE4.2 被 添加 到 Core i7 处 理 器 中 。 

这 些 扩展 指令 扩大 了 MMX 扩展 指令 最 初 设 定 的 目标 一 一 能 够 对 表示 音频 和 视频 的 数据 进 
行 并 行 处 理 。MPsapBw 指令 是 个 很 好 的 例子 ， 它 计算 8 个 绝对 差 的 偏 移 和 ( 即 pe vol + xi 一 
Vi] + lx ya + lx — Hale o= Mil + pa — yal + lx — Wal + be — Yl, vor Do 该 操作 是 设计 HDTV 
编 解 码 器 的 核心 ， 可 以 在 7 个 周期 内 计算 出 一 个 8 x 8 像素 块 的 差 。 

SSE4 还 支持 串 处 理 操 作 ， 该 操作 可 被 用 于 从 文本 处 理 到 扫描 病毒 数据 等 应 用 。 例 如 ， 
新 指令 可 以 在 一 条 指令 中 完成 多 个 比较 和 搜索 操作 。 一 个 串 处 理 指 令 可 以 比较 两 个 串 并 生 
成 一 个 位 掩 码 ， 当 对 应 的 字 节 相同 ， 则 掩 码 中 位 为 1。 例 如， 比较 串 “ MyNamelsNotAllan” 
与 “MiNameIzNotEllan ”将 得 到 掩 码 1011111011101111。 可 以 通过 指令 中 的 一 个 控制 
整数 将 匹配 处 理 修 改 为 其 他 操作 ， 例 如 将 源 串 与 第 二 个 串 中 的 任何 一 个 字符 匹配 ， 无 论 
哪个 出 现 都 视 作 匹配 成 功 。 例 如 ， 用 “aeiou” 与 串 “MyNamelsNotAllan ”匹配 将 得 到 
0001011001010010。 还 可 以 与 字符 范围 匹配 。 例 如 ， 如 果 第 二 个 字符 串 为 “azAZ”， 匹 配 将 
变 为 判断 字符 是 否 在 a 一 z 或 A 一 Z 范 围 内 。 可 以 用 它 检 测 数 据 中 是 否 含有 非法 字符 一 一 在 
这 个 例子 里 是 数字 和 标点 符号 。 

男 一 条 有 用 的 指令 是 PopcNT， 它 统计 源 操作 数 中 有 几 位 被 置 为 1， 并 将 得 到 的 位 数 保存 
在 目的 寄存 器 中 。 源 操作 数 可 以 是 16、32 或 64 位 。 它 的 64 位 格式 是 POPCNT r64_a,r64_s, 

从 最 初 的 多 媒体 扩展 开始 ，Intel 的 指令 集 扩展 经 过 了 很 长 一 段 历 程 ， 向 指令 中 增加 了 很 
多 功能 ， 使 它们 能 更 好 地 完成 从 MPEG 视频 解码 到 密码 等 应 用 中 的 多 媒体 处 理 。 这 就 产生 
了 一 个 有 趣 的 问题 一 一 如 果 重 新 设计 指令 系统 ， 使 其 支持 扩展 指令 集 ( 即 如 果 今 天 使 用 已 有 
的 技术 设计 IA32 指令 系统 )， 那 么 它 看 起 来 会 是 什么 样 ? 


5.4.4 ARM 系列 处 理 器 的 多 媒体 指令 


ARM 系列 处 理 需 的 成 员 也 实现 了 扩展 指令 。Cortex-A ARM 处 理 器 中 包含 高 级 SIMD th 
系 结 构 扩 展 指令 (advanced SIMD architecture extension)， 叫 作 NEON。NEON 技术 能 够 对 
64 位 和 128 位 寄存 器 进行 操作 ， 能 够 在 10MHz 工作 频率 (一 个 远 远 低 于 传统 PC 处 理 器 的 
时 钟 频率 ) 处 理 器 上 完成 MP3 处 理 。ARM 系列 SIMD 扩展 指令 ， 也 叫 DSP 扩展 指令 ， 使 
得 低 价格 、 低 速 处 理 器 可 以 采用 最 前 沿 的 体系 结构 ， 从 而 可 以 大 量 生产 价格 很 低 的 消费 者 娱 
乐 系统 和 汽车 系统 。 

NEON 体系 结构 有 两 个 逻辑 寄存 器 体 : 64 位 的 DD 寄存 器 和 128 位 的 Q 寄存 器 (图 5-31 )， 
它们 被 映射 到 相同 的 物理 寄存 器 上 (图 5-32 )。 

ARM 处 理 器 ISA 的 新 指令 也 采用 了 三 寄存 器 格式 ,但 用 新 的 后 级 指明 数据 类 型 。 下 面 
是 ARM 的 一 些 指令 后 绥 : 








Q 饱和 运算 

R BA 

D 双 倍 长 度 结果 
H 半 长 度 结果 


.I16 16 位 操作 数 
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128 位 Q 寄存 器 
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图 5-31 NEON 技术 的 Q 寄存 器 组 


128 位 Q0 寄存 器 





ds 
\ 


A 
x 
w 
N 
=> 
Ki 
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图 5-32 D 寄存 器 和 Q 寄存 器 的 相互 映射 


VADD.I16 D0,D1,D2 是 一 个 典型 的 操作 ， 它 将 寄存 器 D1 和 D2 中 的 4 对 16 位 值 相 
加 ， 并 将 4 个 16 位 结果 保存 在 D0 中 。 请 考虑 16 位 /32 位 混合 乘法 操作 vaur.ra2.sl6 
oo,D2,D3， 它 将 4 对 16 位 整数 相 乘 ， 并 将 4 个 32 位 结果 保存 在 128 位 寄存 器 Q0 (Q0 当 
然 就 是 寄存 器 D1 和 D0 )。 图 5-33 描述 了 这 个 操作 。 
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图 5-33 16 x 16 位 乘法 并 升级 到 32 位 积 
NEON 可 以 在 同一 条 指令 中 使 用 D 和 Q 寄存 器 ， 因 为 元 素 可 以 被 升级 (promoted) 或 降 
级 (demoted) (ARM 术语 )。 长 操作 会 将 数据 类 型 升 到 双 倍 长 度 〈 比 如 乘法 )。 穿 操作 会 得 到 
相反 的 结果 ， 结 果 的 长 度 只 有 源 操作 数 的 一 半 。 宽 操作 会 升级 第 二 个 操作 数 的 元 素 (例如 ， 
一 个 16 位 操作 数 与 一 个 32 位 操作 数 相 加 时 会 被 升级 为 32 位 )。 
图 5-34 描述 了 一 个 相反 的 操作 vHsR.I16.I32 po,al,#5。 这 里 ， 寄 存 器 QI 中 的 4 个 32 
位 值 都 被 右 移 5 位 ，4 个 32 位 结果 被 截断 为 16 位 并 保存 在 64 位 寄存 器 DO 中 。 


Ql 


5 


DO 
图 5-34 32 位 移 位 并 降级 到 16 位 结果 


NEON 可 以 同时 载 入 多 个 数据 ， 如 图 5-35 Aras. Pu, vup3.16 {p0,p1,p2}, [R0]! 表 
明 64 位 寄存 器 DO0、D1 和 D2 都 将 被 载 人 4 个 16 位 元 素 。 这 条 指令 使 我 们 可 以 传送 每 个 元 
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素 都 有 多 个 部 分 的 数组 元 素 。 

存储 器 寄存 器 
me VLD3.16{D0,D1,D2}, [z0] ! 

vy == [ro]! 














© Cengage Learning 2014 


图 5-35 ”加载 和 保存 数据 结构 
下 面 是 使 用 ARM 的 SIMD 指令 的 一 个 例子 ， 引 自 ARM 公司 的 文献 : 


int a[256], b[256], c[2560; 
foo () { 
Ene 2: 
for (i=0; i<256;i++) { 
a[i]=b[i]+c[i]; 
} 
} 


这 段 C 代码 的 内 循环 可 被 转换 为 下 面 的 ARM 指令 : 


loop VLD1.32 {d0,d1i}, [x0]! 
SUBS r3,r3,#1 
VLD1.132 {d2,d3}, [r1]! 
VADD.I32 q0,q0,ql 
VST1.32 {do,d1}, [r2]! 
BNE loop 


面向 多 媒体 应 用 的 指令 集 扩 展 就 介绍 到 这 里 。 本 章 的 目的 既 不 是 讲授 图 形 和 视频 处 理 ， 
也 不 是 深入 研究 多 媒体 编程 。 本 章 的 目的 是 展示 应 用 需要 大 量 计算 的 特点 ， 以 及 计算 机 制造 





商 解决 多 媒体 支持 的 需求 的 方法 一 一 不 是 设计 完全 新 的 处 理 器 ， 而 是 扩展 已 有 处 理 器 的 指令 
系统 。 . 

第 6 章 将 回答 如 何 设计 计算 机 
本 章 小 结 


本 章 第 一 部 分 介绍 了 多 媒体 的 思想 ， 并 介绍 了 有 损 压 缩 的 概念 。 有 损 压 缩 是 多 媒体 处 理 
的 核心 ， 因 为 如 果 没 有 它 ， 现 有 的 技术 都 无 法 处 理由 未 压缩 图 像 表 示 的 海量 信息 。 有 损 压缩 
依赖 于 人 们 删除 对 观察 无 关 紧 要 的 那 部 分 信息 能 力 。 

本 章 第 二 部 分 介绍 了 现代 处 理 器 通过 面向 多 媒体 处 理 优化 指令 集 以 适应 今天 的 应 用 的 方 
法 。 这 些 指 令 集 强 化 技术 增加 了 处 理 器 在 完成 视频 、 音 频 处 理 以 及 图 像 压 缩 时 的 吞吐 率 。 这 
些 指令 的 关键 在 于 SIMD 或 单 指令 多 数据 模式 ， 它 使 用 一 条 指令 可 以 并 行 处 理 两 个 或 更 多 的 
数据 。 例 如 ，8 个 字 节 可 以 并 行 地 与 另外 8 个 字 节 相 加 ， 得 到 一 个 8 字 节 的 结果 。 本 章 还 介 
绍 了 这 类 指令 的 一 些 有 趣 特点 一 一 特别 是 它们 实现 无 分 支 计算 的 能 力 ， 首 先 用 一 个 条 件 操作 
设置 掩 码 ， 然 后 使 用 这 些 掩 码 决定 应 该 执行 哪些 操作 。 


习题 
5.1 什么 是 多 媒体 ? 
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5.2 一 台 计 算 机 没有 除法 指令 ， 使 用 5.1 节 中 的 技术 迭代 地 完成 除法 。 假 设 现在 要 计算 423/1927。 阁 要 
获得 10 位 十 进 制 数 的 准确 度 ， 一 共 要 进行 多 少 次 迭代 ? 
5.3 a. 无 损 压 缩 和 有 损 压缩 有 何 区 别 ? 
b. 流行 的 ZIP 压缩 技术 是 有 损 的 还 是 无 损 的 ? 
5.4 能 够 使 用 无 损 压 缩 技 术 的 数据 流 有 何 特点 ( 即 数 据 类 型 ) ? 
5.5 为 什么 将 64 个 像素 转换 为 64 个 DCT 函数 对 JPEG 图 像 压缩 很 有 帮助 ? 
5.6 为 什么 多 媒体 应 用 中 SIMD 操作 很 常见 ? 
5.7 要 使 用 压缩 比 为 20:1 的 有 损 压缩 算法 压缩 一 副 10”x 8” 的 彩色 图 像 。 如 果 图 像 分 辩 率 为 72dpi 并 
且 它 的 每 个 点 都 由 3 种 颜色 组 成 (每 种 颜色 有 4096 级 )， 图 像 的 大 小 为 多 少 比特 ? 
5.8 要 建造 一 家 有 200 个 房间 的 酒店 。 每 个 房间 都 带 有 视频 点 播 电 视 ， 能 够 以 30 帧 /s 的 速率 播放 分 辩 
率 为 1920 x 1080 像素 的 高 清 电视 。 如 果 每 个 像素 24 位 ， 视 频 压 缩 率 为 100， 请 回答 以 下 问题 : 
a. 在 最 坏 情 况 下 ， 假 设 75% 的 房间 都 在 看 电视 ， 所 需 的 最 大 数据 传输 率 是 多 少 ? 
b. 如 果酒 店 提供 300 部 电影 供 点 播 ， 平均 每 部 播放 时 间 为 90 分 钟 ， 那 么 所 需 的 磁盘 存储 器 容量 点 
为 多 大 ? 
c. 当 一 个 观众 选择 了 一 部 新 电影 后 ， 服 务 器 将 被 中 断 并 执行 对 应 的 例 程 。 这 个 切换 进程 包括 大 约 
15 000 条 指令 ， 在 一 个 4GHz 的 处 理 器 上 运行 时 每 条 指令 大 约 需要 一 个 周期 。 如 果 用 户 能 够 接 
受 的 延迟 为 80ms (车 数据 流 延 迟 小 于 80ms， 则 视觉 上 很 难 察觉 )， 那 么 在 任何 时 候 ， 该 系统 能 
够 同时 处 理 多 少 个 切换 ? 
5.9 为 什么 Intel 一 开始 决定 要 在 不 改变 处 理 器 的 状态 体系 结构 情况 下 实现 它 的 多 媒体 扩展 指令 ( 即 不 
实现 新 的 寄存 器 、 条 件 码 或 改变 异常 处 理 ) ? 
5.10 什么 是 饱和 运算 ? 对 于 典型 多 媒体 应 用 ， 它 有 何 优点 与 不 足 ? 
5.11 a. 指令 PcMPEQB MMO, MMi 有 何 作用 ? 
b. 指令 PcMPGTW MM0 ,MM1 有 何 作用 ? 
5.12 ARM 处 理 器 支持 谓词 执行 ; 例如 仅 当 Z 位 被 置 1 时 ADDEQ 指令 才 会 完成 加 法 。 能够 处 理 多 个 独 
立 字数 据 的 多 媒体 指令 不 会 修改 条 件 码 位 。 例 如 ，Intel 的 比较 指令 被 用 来 将 子 字 置 为 全 0 或 全 1， 
其 结果 可 被 用 作 逻 辑 运算 的 掩 码 。 如 果 想 要 向 一 个 类 似 ARM 的 三 或 四 寄存 器 格式 的 指令 集中 增 
加 一 些 类 似 MMX 扩展 的 内 容 ， 你 觉得 应 该 如 何 利用 谓词 执行 技术 ? 
5.13 如 果 MMX 寄存 器 MMO WAH 0012ABFF34807F6A,,, MM1 的 内 容 为 F20361111888890A,。， 执 
行 下 面 的 指令 会 产生 怎样 的 结果 ? 


a.PADDusb MM0O,MM1 b. PADDub = MMO, MM 
C. PRDDsb ™MMO,MM1 d. PSUBsb MMO0,MMI 
e. PSUBub ™MMO,MM1 f. PADDusw MMO, MM1 


5.14 以 下 每 条 指令 的 结果 是 什么 ? 假设 在 每 个 操作 开始 时 MMO 的 内 容 为 0012ABFF34807F6A， 
MM1 的 内 容 为 F20361111888890Al。 


a. PSRAw MMO,5 b. PAND MMO, MM1 
C. PSRAb MMO,5 d. PACKuswb MMO0,MM1 
e. PCMGTw MMO, MM1 f. PCMGTb MMO, MM1 


5.15 如 果 MMO 的 内 容 为 0x0001 0002 0003 0004, MM1 的 内 容 为 0x0005 0006 0007 0008, AAS 
PMADDWD MMO,MM1 的 结果 是 什么 ? 

5.16 MMX 体系 结构 不 包括 条 件 分 支 指令 。 那么 如 何 用 MMX 实现 条 件 操作 ? 

5.17 什么 是 裁剪 ?如何 用 MMX 体系 结构 加 速 裁剪 处 理 ? 

5.18 请 调查 如 今 由 计算 机 制造 商 生 产 的 专用 多 媒体 设备 。 

5.19 Intel Pentium 有 一 条 cPUID (处 理 器 标识 ) 指令 。 请 查阅 该 指令 的 资料 ， 并 说 明 如 何 使 用 该 指令 

5.20 请 考虑 下 面 的 循环 ， 它 将 一 个 常数 加 到 一 个 向 量 上 (前面 已 经 讨论 过 )。 只 使 用 一 条 SIMD 指令 


5.2 


5.2 


5.2 


6 
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会 产生 大 量 开 销 。 假 设 正 在 设计 一 个 实现 了 类 似 操作 paddb 的 新 ISA。 请 问 应 如 何 使 这 段 代 码 变 
得 更 高 效 ? 


movg mml,c ; 将 常数 载 入 寄存 器 mml (8 份 拷贝 ) 

mov ex, 3 ; 循环 3 次 ， 设 置 循环 计数 器 (8x 3=24) 

mov esi, 0 ; 将 指针 置 为 0 (用 做 向 量 索引 ) 
Next: movg mm0,x[esi] ; 重复 : 使 用 索引 寻 址 载 入 8 个 字 节 到 寄存 器 mm0 中 

paddb mm0, mm1 ; 完成 8 字 节 向 量 加 法 

movg x[fesi] , mmo ; 将 8 字 节 结果 存 入 x 

add esi,8 ; 索引 加 8 

loop Next ; 直到 全 部 完成 
在 第 4 章 介绍 了 MIPS 提供 有 符号 和 无 符号 加 法 指令 ， 有 些 处 理 器 提供 有 符号 和 无 符号 乘法 指 
令 。 而 这 一 章 介绍 了 饱和 运算 。 看 起 来 用 操作 数 类 型 标志 数据 或 指令 是 非常 明智 的 。 这 一 步 的 含 


义 是 什么 ? 它 有 何 优点 与 不 足 ? 

如 果 MM0 的 初始 值 为 0xE000001200000611，MMI1 的 为 0x00102222FFFFFFFF， 那 么 指令 
PACKssdw MMO,MM1 的 结果 是 什么 ? 

你 决定 通过 增加 一 些 新 指令 向 一 款 处 理 器 中 加 入 新 的 体系 结构 特征 ; 也 就 是 说 ， 要 扩展 它 的 指令 
系统 。 这 些 新 增 的 指令 对 现 有 的 指令 系统 有 何 影 响 ? 

从 Intel MMX 和 AMD 3D Now! 可 以 得 到 哪些 有 关 指 令 系 统 的 经 验 教训 ? 

请 考虑 下 图 中 的 波形 。 如 果 它 被 应 用 于 一 个 带 有 变换 函数 y = 0.7x, + 0.3xi| 的 简单 DSP 中 ， 那 么 
输出 看 起 来 像 什 么 ?假设 数据 为 0.0, 0.0, 0.20, 0.5, 0.8, 1.0, 0.85, 0.55, 0.3, 0.15, 0.05, 0.1, 
0.25, 0.50 和 0.24 


0123456789 10 11 12 13 14 

时 间 
你 要 设计 一 款 带 有 64 位 字 的 新 处 理 器 。 为 了 充分 利用 新 技术 ， 你 决定 可 以 给 每 个 字 分 配额 外 的 5 
位 ， 即 寄存 融和 存储 器 中 的 字数 据 会 占据 69 位 。 这 额外 的 5 位 将 被 用 于 描述 该 数据 。 根 据 前 面 
章节 的 介绍 ， 你 觉得 应 该 如 何 分 配 这 5 位 〈 即 给 它们 分 配 哪 些 功能 ) ? 
请 说 明 以 下 代码 段 的 功能 ?请 注意 ,数据 是 有 符号 的 ,并且 压缩 右 移 算术 指令 处 理 字 (16 位 ) 操 
WER 
MOVQ MMO,MM1 


PSRAW MM0, 15 
PXOR MM0,MM1 


D 
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5.28 请 考虑 下 而 的 代码 段 ， 它 来 自 一 个 循环 的 内 部 。 请 解释 指令 的 功能 ， 并 说 明 对 数据 进行 了 哪些 
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操作 。 
MOVQ MM1,A ; 从 图 像 A TR 8 个 像素 
MOVQ MM2,B ; 从 图 像 B 中 取 8 个 像素 


MOVQ MM3 , MM1 
PSUBSB MM1,MM2 
PSUBSB MM2,MM3 
POR MM1, MM2 


| 第 三 部 分 


Computer Organization and Architecture: Themes and Variations 


组 成 和 效能 





第 二 部 分 介绍 了 计算 机 及 其 指令 集体 系 结构 。 第 三 部 分 的 主题 是 计算 机 性 能 ， 主 要 会 从 
实现 的 角度 进行 介绍 。 第 6 章 将 注意 力 集 中 在 处 理 器 的 组 成 和 内 部 结构 上 。 它 从 微 程序 设计 
开始 ， 展 示 了 指令 是 如 何 被 解释 和 执行 的 。 微 程序 设计 很 好 地 解释 了 代表 指令 的 任意 位 串 怎 
样 被 翻译 为 微 操作 的 执行 。 尽 管 微 程序 设 计 的 鼎盛 时 期 早已 不 在 ,但 它 仍 被 用 在 一 些 解释 复 
杂 微 操作 的 处 理 器 中 。 | 

能 够 重合 执行 多 条 指令 的 流水 线 技术 已 被 广泛 应 用 以 提升 处 理 器 的 性 能 。 当 前 指令 一 开 
始 在 流水 线 上 执行 ， 流 水 处 理 器 就 会 启动 下 一 条 指令 。 由 于 流水 线 的 重要 性 ， 本 部 分 使 用 
相当 大 的 篇 幅 专门 介绍 流水 线 及 其 对 性 能 的 影响 。 尤 其 是 流水 线 所 面临 的 性 能 约束 ， 比 如 条 
件 分 支 对 流水 线性 能 的 影响 ， 当 跳 转 到 程序 的 另 一 部 分 时 它 会 强制 流水 线 放弃 正在 进行 的 工 
作 。 本 部 分 还 将 介绍 分 支 预测 ， 一 种 为 了 加 速 处 理 而 猜测 分 支 转 移 是 否 成 功 的 技术 。 
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AE EE Ai Ta 


“就 是 这 里 。” 
“万 物 各 得 其 所 。” 


“从 混乱 中 发 现 简单 。 从 无 序 中 找到 和 谐 。 困 难 中 蕴藏 着 机 会 。 
一 一 阿尔 伯 特 '， 爱 因 斯 坦 


“取胜 之 机 在 于 隐秘 行动 。” 
— nT. AH 


“效率 即 是 要 恰当 地 做 事 ; 而 效果 则 是 要 做 该 做 的 事 。” 
一 一 披 得， FH 


“预言 是 很 难 的 ， 尤 其 是 关于 未 来 的 预言 。 
一 一 尼 尔 斯 . 玻 尔 


“有 什么 办 法 吗 ?” 
一 一 萨 伦 伯 格 机 长 ， 连 降 到 哈 德 进 河 上 22 秒 之 前 


“ 真 的 没有 。” 
一 一 副 驾 驶 斯 基 尔 的 回答 


计算 机 是 如 何 工作 的 ， 为 何 它 的 运行 速度 如 此 之 快 ? 现 在 到 了 就 这 两 个 问题 做 出 一 些 回 
答 的 时 候 了 。 本 章 的 主题 是 介绍 微 处 理 器 的 内 部 操作 以 及 设计 者 用 来 提高 微 处 理 器 性 能 的 
一 些 方法 。 我 们 将 专门 解释 如 何 利用 流水 线 (pipelining) 技术 ， 通 过 将 指令 执行 重 秋 在 一 起 
大 幅度 提高 计算 机 性 能 ， 这 种 技术 最 初 仅 用 于 RISC 处 理 器 ,但 如 今 已 被 所 有 现代 人 处 理 髓 采 
用 。 遗 憾 的 是 ， 流 水 线 对 那些 会 降低 机 器 性 能 的 指令 类 型 或 机 器 指令 序列 相当 敏感。 本 章 最 
后 一 部 分 将 讨论 为 什么 流水 线 效 率 严重 依赖 于 它 所 执行 的 代码 特性 ， 并 会 介绍 一 些 可 用 于 克 
服 流水 线 这 些 内 在 缺陷 的 技术 。 

本 章 无 法 介绍 所 有 用 来 提升 处 理 器 性 能 的 技术 ， 因 此 我 们 将 讨论 的 范围 限制 为 流水 线 ， 
它 的 性 能 上 限 是 每 个 时 钟 周期 一 条 指令 。 

本 章 涉 及 大 量 资料 ， 因 为 我 们 必须 从 概念 和 实现 两 个 层次 介绍 计算 机 的 组 成 ， 前 者 阐述 
了 计算 机 如 何 读 取 和 解释 二 进 制 编码 的 指令 ， 后 者 则 描述 了 计算 机 的 一 些 实现 技术 。 而 且 ， 
描述 计算 机 组 成 的 方法 有 很 多 种 : 处 理 器 可 被 视 作 由 内 部 时 序 器 控制 的 通用 数字 装置 (这 种 
方法 更 适合 于 描述 早期 的 CISC 计算 机 ), 或 者 将 计算 机 表示 为 一 组 数字 模块 (内 存 、 寄 存 
器 、 算 术 模 块 、 逻 辑 模块 和 多 路 选择 器 )， 程 序 执行 时 指令 流 将 流 过 这 些 模块 。 后 一 种 模型 
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与 RISC 计算 机 的 组 成 结构 一 致 ， 直 接 使 用 指令 位 控制 功能 单元 的 操作 。 遵 从 本 书 主题 与 变 
化 (theme and variations) 的 哲学 ， 本 章 将 介绍 这 两 种 实现 计算 机 的 方法 。 

本 章 将 从 如 何 使 用 寄存 器 、 功 能 单元 (ALU 和 加 法 器 )、 三 态 门 和 总 线 执行 指令 以 及 处 
理 数 据 开 始 介绍 。 我 们 会 介绍 怎样 通过 微 程序 设计 (microprogramming， 也 叫 微 编 程 ) 逐条 
地 将 指令 码 转换 为 控制 指令 执行 的 动作 。 高 级 语言 编译 器 将 程序 翻译 为 低级 语言 程序 或 机 器 
指令 流 。 微 程序 设计 则 将 机 器 指令 转换 为 微 操 作 序列 。 微 操作 是 一 种 硬件 原 语 操作 ， 比 如 将 
数据 锁 存 在 寄存 器 中 或 将 数据 从 总 线 4 复制 到 总 线 刀 上 。 尽 管 在 设计 处 理 器 时 用 户 有 可 能 
修改 微 程序 并 因此 改变 指令 集 ， 但 是 负责 解释 机 器 指令 的 微 程序 会 被 固化 在 微 处 理 器 的 硬件 
中 ， 并 且 是 用 户 不 可 访问 的 。 


计算 机 层次 

计算 机 可 被 看 成 有 多 级 抽象 的 层次 系统 。 下 面 给 出 了 不 同 层 次 上 对 数字 计算 机 的 抽象 
描述 。 在 第 3 章 中 ， 我 们 仅 对 低级 语言 层 感 兴趣 。 而 在 本 章 ， 我 们 则 关注 微 体 系 结构 层 。 

应 用 层 一 一 计算 机 作为 能 够 实现 菜 一 功能 的 设备 出 现在 这 一 层次 。 例 如 ， 运行 GPS 
定位 方案 的 计算 机 就 像 一 个 卫星 定位 设备 一 样 。 

高 级 语言 层 一 一 这 一 层次 中 的 计算 机 与 机 器 无 关 ， 能 够 执行 高 级 语言 程序 。 执 行 相 
| 同 语言 的 所 有 计算 机 (在 原则 上 ) 是 相同 ， 仅 在 性 能 方面 有 所 区 别 。 
| 低级 语言 层 一 一 在 这 一 层次 上 ， 计 算 机 与 体系 结构 相关 ， 它 所 执行 的 机 器 代码 只 能 
| 在 某 一 类 计算 机 (比如 运行 在 Core i7 上 的 Intel IA32 代码 ) 上 运行 。 

微 体系 结构 层 一 一 该 层次 从 寄存 器 、 功 能 单元 和 总 线 的 角度 展示 计算 机 的 物理 组 成 。 
对 于 某 个 特定 的 微 处 理 器 来 说 ， 其 微 体系 结构 可 能 是 独一无二 的 ( 即 两 款 微 处 理 器 支持 
同样 的 低级 语言 ， 但 它们 的 微 体系 结构 却 不 相同 )。 该 层次 一 般 对 终端 用 户 是 不 可 用 的 。 
| 不 过 ， 现 代 可 编程 远 辑 却 使 用 户 可 以 修改 由 可 编程 未 辑 构建 的 处 理 器 微 体系 结构 。 本 章 
将 关注 微 体系 结构 层 。 
| 门 级 一 它 处 于 微 体系 结构 层 之 下 ， 相 互 独立 的 门 决定 了 处 理 器 的 最 终 迷 度 。 
物理 器 件 层 一 一 物理 器 件 层 是 最 低 的 一 个 层次 ， 由 制造 门 所 使 用 材料 的 电气 特性 所 
| RR. E 

右 图 描述 了 上 述 各 个 层次 以 及 计算 机 应 用 Th 
与 之 相关 的 各 类 人 员 。 它 的 形状 是 ”科学 家 高 级 语言 程序 程序 员 
一 小 个 ae sila’ 这 反映 了 各 指令 集体 系 eae 程序 员 
个 层次 所 涉及 人 员 的 相对 数量 。 例 结构 (ISA) 编译 器 


TRS 微 程序 
do, HRA POM EER RK, 计算 机 设计 者 向 体系 结构 工程 师 














| 但 晶体 管 设计 (如 集成 电路 制造 ) 
| 人员 的 数量 则 相对 较 少 。 请 注意 S E 
| 如 果 可 以 直接 解释 执行 低级 语言 各 potas e HPR 

| 序 (就 像 很 多 RISC 处 理 器 那样 ) tas f 
| 那么 可 以 没有 微 程序 这 一 部 分 。 








尽管 Pentium 之 类 的 处 理 器 仍 在 用 微 程 序 执行 它们 的 一 些 最 复杂 的 指令 ， 但 是 已 经 很 少 
用 微 程序 设计 来 实现 整个 CISC 处 理 器 了 。 之 所 以 介绍 微 程 序 设 计 ， 是 因为 它 非常 简洁 地 解 
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释 了 计算 机 是 如 何 执行 任意 复杂 的 操作 的 。 在 介绍 了 通用 微 程序 计算 机 后 ， 我 们 将 介绍 每 周 
期 执行 一 条 机 器 指令 的 单 周期 RISC (single-cycle RISC) 结构 。 

单 周 期 RISC 处 理 器 的 结构 使 读者 很 容易 理解 指令 是 如 何在 采用 定 长 编码 的 32 位 (或 更 
K) 指令 字 的 纯 RISC 处 理 器 上 执行 的 (参见 panel)。 这 一 处 理 器 的 结构 反映 了 现代 处 理 需 
的 一 个 重要 特点 : 所 谓 的 存储 程序 芭 ， 诺 依 曼 计算 机 (stored-program von Neumann machine) 
已 不 能 准确 地 刻画 处 理 器 体系 结构 。 今 天 的 处 理 需 使 用 哈佛 结构 (Harvard architecture), [Al 
为 它们 使 用 分 离 的 可 并 行 访问 的 指令 存储 器 和 数据 存储 器 。 尽 管 当今 的 处 理 器 在 名 义 上 仍 是 
带 有 公共 的 指令 和 数据 存储 器 的 存储 程序 结构 ， 但 高 速 片 上 指令 和 数据 Cache 的 使 用 意味 着 
处 理 器 能 同时 访问 指令 和 数据 。《 计 算 机 存储 与 外 设 》 第 1 章 将 介绍 Cache. 

在 介绍 了 简单 的 单 周 期 处 理 器 后 ， 接 下 来 介绍 利用 流水 线 技术 提高 性 能 的 多 周期 处 理 
器 ， 它 在 任 一 周期 都 可 以 同时 执行 4 条 或 更 多 的 指令 ， 每 条 指令 处 在 一 个 不 同 的 完成 状态 。 
流水 线 技术 与 汽车 制造 业 中 的 生产 线 十 分 相似 。 尽 管 流 水 线 技术 往往 与 RISC 处 理 器 联系 在 
一 起 ,但 在 RISC 出 现 前 它 已 经 被 广泛 地 使 用 了 很 入。 而且，Intel 非常 激进 地 使 用 流水 线 技 
术 提 升 其 Pentium 处 理 咒 的 性 能 (尽管 最 近 许 多 Intel 处 理 融 的 流水 线 比 某 些 Pentium Wb Fl a 
的 短 )。 我 们 还 将 简要 讨论 ARM 处 理 器 内 部 的 流水 线 。 

本 章 其 余部 分 将 讨论 计算 机 设计 者 如 何 克 服 流水 线 处 理 器 中 分 文 指 令 的 影响 。 当 遇 到 一 
条 分 支 指令 时 ， 流 水 线 将 跳 转 到 程序 中 另 一 个 位 置 执行 (假设 分 支 转移 成 功 )。 这 样 ， 分 支 
指令 之 后 那些 已 经 进入 流水 线 并 开始 执行 的 指令 必须 被 清空 。 


| 定 长 指令 集 

| 定 长 指令 格式 表明 指令 的 位 模式 和 它 要 完成 的 操作 之 间 是 高 度 相关 的 。 定 长 指令 集 的 
指令 种 类 通常 比较 少 (比如 1oad、store、 寄 存 器 一 寄存 器 和 分 支 )， 同一 类 型 的 所 有 指令 
| 具有 相同 的 格式 。 而 且 ， 指 令 格 式 使 用 同样 的 位 编码 源 和 目的 寄存 器 。 这 种 定 长 指令 格式 
使 得 从 操作 码 中 直接 获取 实现 操作 的 控制 信号 十 分 容易 。CISC 处 理 器 采用 变 长 指令 格式 
(例如 16 一 80 位 )， 以 及 各 种 各 样 的 编码 方案 一 其 编码 方案 非常 多 ， 以 至 于 为 一 个 68K 
处 理 器 开发 汇编 程序 都 不 是 一 件 简单 的 工作 。 由 于 其 复杂 的 指令 编码 方案 ，CISC 处 理 器 
需要 复杂 的 译 码 逻辑 或 查找 表 ， 以 便 将 操作 码 转化 成 实现 指令 所 必需 的 控制 信和 号。 


scm nti a 














6.1 通用 数字 处 理 器 


现在 我 们 回 到 第 一 原则 (first principle)， 从 一 个 一 般 的 、 能 够 执行 任意 指令 集 的 通用 数 
字 计 算 机 开始 ; 即 机 器 结构 与 指令 编码 无 关 。 图 6-1 描述 了 一 台 非 常 简单 的 计算 机 ， 它 有 3 
根 总 线 和 两 个 通用 寄存 器 ，R0 与 R1。 该 结构 仅 在 总 线 类 型 和 寄存 器 设置 上 对 第 2 章 中 描述 
的 处 理 器 进行 了 微小 改进 ， 可 被 扩展 为 任意 数量 的 寄存 器 和 总 线 。 机 器 指令 中 只 有 两 个 寄存 
器 是 用 户 可 见 的 ; 其 余 所 有 寄存 器 对 程序 员 来 说 均 是 不 可 见 的 。CPU 带 有 一 个 保存 下 一 条 
要 执行 的 指令 地 址 的 程序 计数 器 (PC)， 一 个 存放 将 从 存储 器 中 读 出 的 或 写 人 存储 器 的 数据 
的 地 址 的 存储 器 地 址 寄存 器 (MAR)， 一 个 保存 将 写 人 存储 器 或 从 存储 器 中 读 出 的 真实 数据 
的 存储 器 缓冲 寄存 器 (MBR)， 以 及 一 个 指令 寄存 咒 〈IR)。 指 令 寄存 器 中 既 包 含 了 从 存储 器 
中 读 出 的 指令 的 操作 码 ， 也 含有 指令 所 需 操 作 数 的 地 址 。 

之 所 以 选择 这 一 特定 结构 ， 是 因为 它 既 可 以 实现 寄存 器 — 寄存 器 指令 ， 也 可 以 实现 寄存 
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带 一 存储 天 / FF fiir — 8S FF at S o 
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注意 : 当 Read=1 AY, 
数据 从 存储 器 中 读 出 ， 
保存 在 MBR 中 。 

当 Read=0 时 ， 总 线 4 
Gmer c| 上 的 数据 被 放 入 MBR。 
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nauan MAc 
图 6-1 一 个 简单 计算 机 的 总 线 和 功能 单元 结构 


图 6-1 中 的 CPU 带 有 3 条 总 线 , 4、B 和 C。 所 有 寄存 器 都 经 过 总 线 4 接收 来 自 ALU 的 
数据 。 所 有 数据 必须 经 过 ALU 才能 放 到 总 线 4 上 。 所 有 寄存 器 ( 除 MAR Sb) 都 可 以 通过 对 应 
的 三 态 驱 动 器 将 数据 放 到 总 线 B 上 ,但 是 只 有 MBR 和 通用 寄存 器 才能 将 数据 放 到 总 线 C_ 上 。 

ALU fE HH 3 4 $8 dil fi A FL, F MF, MS 6-1 PAY 8 FP ALU DRE. 例如， 车 
F,,F,F,=0,1,1, W) ALU 的 输出 4 等 于 C+1。 我 们 使 用 一 个 非常 小 的 ALU 操作 集合 以 保持 
系统 简洁 ， 增 加 一 个 额外 的 功能 位 提供 16 种 不 同 的 操作 ， 使 我 们 能 够 增加 乘法 操作 和 逻辑 
操作 。 某 些 ALU 功能 是 对 称 的 ; 例如 ， 操 作 码 000 将 数据 从 总 线 复制 到 总 线 4， 而 操作 
码 001 则 将 数据 从 总 线 C 复制 到 总 线 4 上 。 减 法 操作 则 没有 对 称 性 ; 操作 码 111 用 总 线 C 
的 数据 减 去 总 线 B 的 数据 。 但 是 没有 操作 码 代 表 相 反 的 操作 ， 用 总 线 B 的 数据 减 去 总 线 C 
的 数据 。 

表 6-1 图 6-1 中 计算 机 的 全 部 ALU 操作 码 (4，B 和 C 代表 总 线 ) 


将 数据 从 总 线 复制 到 总 线 4 
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将 数据 从 总 线 C 复制 到 总 线 A 














将 总 线 BB 上 的 数据 加 1 并 复制 到 总 线 A A=B+| 
将 总 线 C 上 的 数据 加 1 并 复制 到 总 线 4 A=C+l 
将 总 线 上 的 数据 减 1 并 复制 到 总 线 4 A=B-1 





将 总 线 C 上 的 数据 减 1 并 复制 到 总 线 4 
将 总 线 B 和 C 上 的 数据 相 加 并 复制 到 总 线 4 
将 总 线 C 和 B 上 的 数据 相 减 并 复制 到 总 线 A 








ALU 带 有 一 个 条 件 码 寄存 器 (CCR) 如 果 算 术 运 算 结 果 溢出 ， 它 的 V 位 将 被 置 为 1; 如 
果 结 果 为 负 ， 其 N 位 将 被 置 为 1 ; 如 果 产 生 了 进位 ， 它 的 C 位 将 被 置 为 1 ; 如 果 结 果 为 0， 
它 的 Z 位 将 被 置 1。 在 这 个 例子 里 ， 只 有 2Z 位 用 到 了 。 
K 6-2 定义 了 所 有 用 于 该 结构 的 微 操 作 。 它 们 可 分 为 访 存 操作 、 时 钟 ( 锁 存 器 )、 三 态 控 
制 信号 以 及 ALU 运算 。 所 有 机 器 指令 都 可 以 由 这 些微 操作 的 序列 实现 。 
表 6-2 图 6-1 中 CPU 的 微 指令 集 








操作 类 型 操作 (名 称 ) 
存储 器 将 MBR 中 的 数据 读 出 并 保存 在 存储 器 中 
存储 器 从 存储 器 中 读 出 数据 并 保存 在 MBR 中 
uh MAR ER 
uh MOR aiAt 
时 钟 Che PC 时 钟 
时 名 IR 时 名 
时 钟 Cro 寄存 器 RO 时 钟 
inh 寄存 器 R1 时 钟 
使 能 MBR 到 总 线 B 数据 传输 使 能 
使 能 PC 到 总 线 B 数据 传输 使 能 
使 能 IR 到 总 线 B 数据 传输 使 能 
使 能 RO 到 总 线 数据 传输 使 能 
使 能 RI 到 总 线 B 数据 传输 使 能 
使 能 MBR 到 总 线 C 数据 传输 使 能 
使 能 RO 到 总 线 C 数据 传输 使 能 
使 能 RI 到 总 线 C 数据 传输 使 能 
ALU 功能 F;, Fi, Fo 设置 ALU 功能 


K 6-3 为 该 计算 机 定义 了 一 个 非常 基本 的 机 器 级 指令 集 。 我 们 将 构建 一 个 寄存 器 - 存储 
兢 型 的 ISA。 它 包括 数据 传输 、 算 术 运 算 和 程序 流 控制 等 操作 。 请 注意 该 指令 集 是 不 对 称 
的 : 我 们 能 将 RO 和 Ri 中 的 数据 相 加 并 将 结果 保存 在 R1 中 ， 但 却 不 能 将 RO 和 RI 中 的 数 
据 相 加 并 把 结果 保存 在 RO 中 。 同 样 ， 我 们 可 以 用 R 中 的 数据 减 去 RO 中 的 ， 但 反 过 来 却 不 
可 以 。 这 些 限 制 在 真实 计算 机 中 是 非常 典型 的 ， 因 为 操作 码 的 位 数 是 有 限 的 。 我 们 还 将 寻 址 
方式 限定 为 绝对 寻 址 ( 即 不 支持 索引 寻 址 和 基于 指针 的 寻 址 )。 同 样 ， 也 没有 实现 带 有 立即 
数 的 操作 。 
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# 6-3 图 6-1 中 CPU 的 机 器 级 指令 


操作 码 | 名称 O 操作 (用 RTL 定义 ) 
000 ROMI 

001 LOAD R1, M [R1] = [M] 

on IMI 1RO 

ou MI 一 BR 

100 RIT RIF 

101 SUB R1, RO [R1] —[R1]-[RO} 

110 BRA T [PC] =T 

111 BEQ T IF [Z]= 1 THEN [PC] —T 


下 一 步 将 说 明 表 6-3 中 的 机 器 级 指令 是 如 何 被 解释 执行 的 。 我 们 假定 每 条 指令 开始 执行 
时 ， 操 作 码 都 已 存在 于 指令 寄存 器 中 ， 并 且 它 含有 两 个 字段 : 将 要 被 执行 的 指令 ; 指令 要 访 
问 的 存储 器 操作 数 的 地 址 或 分 支 地 址 。 操 作 数字 段 的 位 数 必须 少 于 MBR 的 位 数 (因为 IR 中 
同时 存放 了 操作 码 和 操作 数 )。 


6.1.1 MIF 


本 节 从 机 器 级 指令 Loap ro, m 的 实现 开始 ， 它 的 RTL 定义 为 [R0] 一 [M]。 该 指令 将 读 
出 存储 单元 M 中 的 数据 ， 并 将 其 复制 到 寄存 器 R0 中 。 由 于 地 址 M 已 在 指令 寄存 器 中 ， 所 
以 门 控 信号 Gro 必须 使 能 ， 以 便 将 地 址 放 到 总 线 巨 上 (没有 可 替换 的 总 线 )， 然 后 将 其 保存 
到 存储 器 地 址 寄存 器 (MAR) 中 ， 该 寄存 器 保存 了 将 要 访问 的 从 存储 器 中 元 素 的 地 址 。 

由 于 MAR 只 与 总 线 4 相连 ， 地 址 M 的 值 必须 使 用 F;,F,,Fu = 0,0,0 定义 的 ALU 旁 路 功 
能 ， 经 过 ALU 从 总 线 B 复 制 到 总 线 4 Eo 一 旦 地 址 M 被 放 到 总 线 4 上 ， 它 将 在 下 一 个 时 
钟 周期 被 写 人 MAR， 以 指向 下 一 个 将 被 访问 的 存储 单元 地 址 。 然 后 可 将 存储 器 控制 信号 置 
为 Read， 内 存 缓冲 寄存 器 ( MBR)， 将 在 下 个 时 周期 获得 数据 。 现 在 ,为 了 将 MBR 中 的 数 
据 复制 到 寄存 器 R0 中， 必须 再 执行 一 次 相似 的 动作 序列 (使 能 Guer s, FaF Fo = 0,0,0， 时 
钟 RO )。 该 动作 序列 可 如 下 表示 ， 每 一 行 代表 一 个 时 钟 周期 。 


Erp = 1, F,,F,,Fo = 0,0,0, CMAR ; 将 IR 中 的 地 址 复制 到 MAR 
Read = 1, Cuer ; 读 存 储 器 ， 将 读 出 的 数据 存 人 MBR 
Eyer s = |, F,F\,Fo = 0,0,0, Cro ; MBR 中 的 数据 复制 到 RO 


这 些 操作 构成 了 一 个 微 程序 (microprogram)， 保 存在 一 个 名 为 控制 存储 器 (control 
store) 的 只 读 存储 器 中 。 微 程序 控制 单元 从 控制 存储 器 中 读 出 微 指令 ， 并 用 它 解 释 执 行 机 器 
级 指令 。 文 下 面 的 本 框 介绍 了 第 一 条 微 指 令 的 作用 。 


微 程 序 设计 的 细节 

除了 将 实现 load 指令 第 一 个 微 操作 的 数据 通路 突出 显示 之 外 ， 下 面 这 幅 图 完全 复制 
了 图 6-1 的 内 容 。 这 个 微 操作 将 保存 在 指令 寄存 器 中 的 指令 地 址 复制 到 存储 器 地 址 寄存 
器 (MAR) 中 ， 用 来 访问 存储 器 获得 真正 的 指令 。 为 了 完成 这 个 动作 ， 必 须 先 将 指令 寄 
存 器 中 的 地 址 放 在 总 线 鼠 上。 然后 将 ALU 的 功能 设置 为 传递 (pass through， 将 输入 了 
送 往 输出 了 R)， 最 后 ， 在 下 一 个 时 钟 周期 ， 存 储 器 地 址 寄存 器 (MAR) MERA 上 获得 访 
存 地 址 。 
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K 6-4 列 出 了 解释 执行 表 6-2 中 每 条 指令 所 需 的 微 操 作 ， 以 及 一 个 取 指 周期 所 对 应 的 微 
操作 。 正 如 读者 所 看 见 的 ， 每 个 微 程序 都 在 1 一 4 个 时 钟 周 期 内 执行 ， 记 作 T ~T X 6-4 
还 揭示 了 图 6-1 中 计算 机 结构 的 一 些 有 趣 特点 。 某 些 操作 比 其 他 操作 更 长 、 更 复杂 。 其 原因 
是 这 些 操作 本 身 就 更 加 复杂 ? 或 是 我 们 没 能 写 出 最 优 的 微 操作 序列 ? 还 是 因为 图 6-1 中 系统 
的 结构 对 于 该 指令 集 来 说 还 不 够 优化 ? 

表 6-4 解释 执行 表 6-3 中 指令 集 的 微 操作 








操作 码 微 操 作 描述 
Bec a = ly Fy Fy Fo =.0,0,0, Guar 将 PC 复制 到 MAR 
Erca = L, FaF p Fo = 0,1,0, CE PC 加 1 
Read = 1, Cyng A 从 存储 器 中 读 出 指令 ， 存 人 MBR 
Eme p= 1, FoFi Fo= 0,0,0, Cy 将 MBR 中 的 操作 码 复制 到 IR 中 
Boe a = 1, F,Fi,Fo = 0,0,0, Cuar Hi IR 复制 到 MAR 
000 ; Read = 1, Cruse 从 存储 器 中 读 出 操作 数 
Erc s = L, FyF,Fo= 0,0,0, Cro > 将 MBR 复制 到 RO 
Epc a = 1, Fp Fp Fo = 0,0,0, Cuar 将 IR 复制 到 MAR 
001 Read = 1, Cupr 从 存储 器 中 读 出 操作 数 





Epc p= 1, Fa,F,,Fo = 0,0,0, Cri > 将 MBR 复制 到 RI1 
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Ero s = l, Fap Fi, Fo = 0,0,0, Cuur 将 RO 复制 到 MBR 
STORE M, RO |Exs=1,F;F,Fo=0.0,0,Char 将 IR 复制 到 MAR 
Write = 1 2 将 RO CE MBR 中 ) 写 人 存储 器 
En 8 = 1 FaF, Fo = 0.0,0,Cwan 将 R1 复制 到 MBR 
STORE M, R1 Era = 1, F2,F),Fo = 0,0,0, Cuar 将 IR 复制 到 MAR 
Write = 1 5 将 R1 (E MBR 中 ) 写 入 存储 器 
Figo » = 1s B 15 RERE 51,0; Ca 将 RO. St REALL, 相 加 ， 并 
将 结果 锁 存 在 R1 中 
== L En c= L, FaFa Fo= 1,11, Ca AERO, RUSE ALG, Hat FF 
g 将 结果 锁 存 在 RI 中 


= Ers = 1, FesF Fy = 0,0,0, Cy a | ”将 IR 中 的 地 址 复制 到 PC 中 
Bi ie me GUE hb 将 IR PAS HEE AR FZ 
IR B stat ita WY. 4 PC 0 位 为 t. 则 将 其 锁 存 在 PC 中 


微 程序 设计 在 20 世纪 80 年 代 的 一 段 时 期 内 非常 流行 ， 那 时 AMD 生产 出 一 款 位 切片 
(bit-slice) 组 件 ， 使 得 任何 人 都 可 以 实现 他 们 自己 选择 的 体系 结构 ,无论 它 有 多 复杂 。 然 而 ， 
ee 的 不 断 发 展 以 及 低 成 本 标准 操作 系统 的 使 用 扼杀 了 这 种 特别 的 计算 

> 计 a 量 多 媒体 扩展 指令 以 扩充 指令 集 ， 从 而 确保 当前 的 系列 微 处 
the 








微 程序 设 计 实 例 

微 程 序 设计 使 人 们 能 够 设计 出 一 个 可 以 无 限 扩 展 的 指令 集 。 假 设 我 们 需要 一 个 机 器 
级 指令 执行 微 操作 [RO] — [[R0]+[R1]]， 妈 将 ROHRI 所 指 存 储 单元 的 内 容 保 存在 RO 中 。 

怎样 才能 实现 这 一 功能 ? 该 功能 需要 R0 和 RI 相 加 并 将 和 作为 地 址 指针 。 由 于 该 
操作 会 修改 RO, Aste RI 加 到 R0 上 是 有 好 处 的 。 我 们 将 R0 HAA BA BL, RI 
的 值 放 到 总 线 C 上 ,将 ALU 的 功能 置 为 加 法 ， 然 后 将 ALU 的 输出 保存 在 RO 中; 即 
Epo | p= 1, Ep i olan = 1, F,,F,,Fo = 1,150, Croo 

在 生成 地 址 以 后 ， 需 要 将 其 复制 到 MAR 中 ， 读 存储 器 ， 然 后 将 寄存 器 MBR 的 结 
果 复 制 到 R0 中 ; 即 


Epo p= 1, F2,F1.Fo = 1,1,0, Cuar ; 44 RO 复制 到 MAR 

Read = 1, Cyr ; 读 存储 器 并 将 数据 复制 到 MBR 

Euer s = 1, F2,F),Fo = 0,0,0, Cro ;将 MBR 复制 到 RO 

尽管 这 是 一 个 非 常 原 始 的 体 系 结 aM, 但 通过 微 程序 设计 我 们 能 够 执行 任意 复杂 的 操作 。 





改变 处 理 器 组 成 

现在 让 我 们 从 另 一 个 角度 来 看 看 图 6-1 中 的 计算 机 ， 它 的 指令 集 在 表 6-2 中 ， 微 操作 序 
列 在 表 6-3 中 ， 并 说 明 如 何 改 变 处 理 器 结构 和 相应 的 微 代码 以 达成 诸如 更 快速 或 更 简洁 ( 即 
生产 成 本 更 低 ) 之 类 的 设计 目标 。 其 目的 在 于 说 明 这 种 基于 总 线 的 处 理 器 设计 的 内 在 灵活 
性 。 图 6-1 F, 总线 BAC 具有 很 大 的 对 称 性 ， 但 我 们 却 使 用 了 一 个 非 对 称 的 指令 集 ( 即 对 
于 加 减 运算 ，RI1 总 是 目的 寄存 器 ，R0 总 是 源 寄 存 器 )- 我 们 可 以 进一步 设计 出 一 个 更 简单 
的 只 有 两 条 总 线 的 结构 ， 如 图 6-2 所 示 
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指令 执行 阶段 从 微 操 作 [MAR] 和 二 [IR] 开始 。 但 将 其 作为 取 指 的 一 部 分 更 好 ， 因 为 可 
以 通过 同时 将 操作 数 地 址 存 人 MAR 和 IR 毫 不 费力 地 实现 该 操作 (需要 做 的 就 是 同时 触发 
MAR 和 IR)。 我 们 为 程序 计数 硕 PC 增加 了 一 个 专用 的 自 增 器 ， 并 将 总 线 C 去 掉 了 。 寄 存 
器 R1 通过 硬 连 线 与 ALU 的 输入 C 始终 连 在 一 起 。 

存储 器 的 输出 通过 多 路 选择 器 M_MBR 连接 到 IR 上 ， 这 样 可 以 直接 从 存储 器 中 取 
出 指令 。 临 时 寄存 器 ，T， 被 用 来 支持 更 复杂 的 操作 。 这 个 寄存 器 是 体系 结构 不 可 见 的 
(architecturally invisible)， 也 不 属于 处 理 器 指令 系统 的 一 部 分 ; 即 可 用 它 实现 那些 需要 临时 
存储 的 操作 ， 但 程序 员 不 能 显 式 地 使 用 该 寄存 器 。 

为 了 解决 一 个 控制 信号 ,ALU 的 传递 功能 被 丢掉 了 ， SS 简化 的 ALU 控制 功能 
表 6-5 给 出 了 新 的 ALU 功能 集合 。 增 加 了 3 个 多 路 选 
择 器 : 一 个 使 总 线 4 可 以 从 ALU 或 者 总 线 妃 上 获取 数 
据 ; 一 个 使 PC 可 以 从 总 线 4 或 者 自 增 器 上 获取 数据 ; 
一 个 使 MBR 从 存储 器 或 者 总 线 B 上 获取 数据 。 

在 图 6-2 中 ， 取 指 周期 被 定义 如 下 。 请 注意 ， 从 
Epc 8 到 Ec 所 有 三 态 使 能 信号 也 有 所 减少 ， 因 为 所 有 三 态 门 只 有 一 个 输出 。 而 且 ， 程 序 计数 
器 的 增 量 总 是 1。 在 真正 的 计算 机 中 ， 它 的 增 量 为 指令 字 的 字 节 数 (通常 为 4 )。 

RTL 微 操 作 











[MAR] + [PC] Bue 1, M ALT= 1. Cissy ; PC 依次 被 送 到 总 线 B、 总 线 
A、MAR 

[PC] + [PC] +1 M PC= 1, Cer ; PC 被 送 到 自 增 器 ， 自 增 结 果 经 
多 路 选择 器 被 送 回 PC 

[IR] 二 [M[MAR]] Read=1,M MBR=0,Cn Cur ; 读 MAR 中 地 址 处 的 数据 ， 并 
将 其 保存 在 IR 和 MBR 中 


在 时 钟 上 升 沿 到 来 时 ， 指 令 被 同时 存 人 IRA MBR, HTF PC 自 增 需 始 终 与 PC 连 在 一 
起 ， 因 此 可 以 通过 微 操作 M_PC = 1, Coc 生成 下 一 条 指令 的 地 址 。 通 过 观察 CPU 的 结构 ， 可 
以 发 现 增加 PC 值 和 读 存储 器 可 以 同时 进行 ， 因 为 这 两 个 操作 不 需要 共享 资源 。 因 此 ， 取 指 
阶段 可 被 精简 如 下 : 


Epc = 1; M_ALU = 1, Cuar ; PC 依次 被 送 到 总 线 B、 总 线 
A、MAR 

Read = 1, M MBR = 0, Cir, Cuser, M_PC = 1, CPC ; BARS, FFA IR, MBR 并 增 
加 PC 值 


K 6-6 列 出 了 图 6-2 中 计算 机 的 17 个 微 操 作 。 所 有 操作 均 在 2 或 3 个 时 钟 周期 内 完成 。 
表 6-6 解释 执行 表 6-3 中 指令 集 所 需 的 微 操 作 


操作 门 使 能 和 多 路 选择 器 控制 时 钟 寄 存 器 


[Ever | Erc | En | Eno | En IM_PC|M_MBR|M_ALU|Cwa| Cuen Coc Cr | Cro] Cs | F: | Fo 


取 指 Ty 0 1 x | x 
( 读 指令 ) Ti 0 0 x | x 








微 操作 
操作 m 门 使 能 和 多 路 选择 器 控制 时 钟 寄 存 器 ALU Ky 


m [Erc | Er | Eno | Emi IM_PC|M_MBR|M_ALU| Cun| Cvor | Coc | Cr | Cro| Cas | F: | Fo | RIW 
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K 6-6 最 后 一 行 在 Coc 列 的 值 为 Z。 当 执行 条 件 分 支 指令 时 ， 下 一 条 指令 地 址 S 
寄存 器 中 的 分 支 日 标 地 址 ) 将 被 放 在 总 线 上 送 往 程 序 计数 器 PC。 如 果 世 位 为 1， 一 个 新 的 
地 址 将 在 下 一 个 时 钟 信号 上 升 沿 时 被 送 入 PC。 

图 6-3 给 出 了 图 6-1 和 图 6-2 中 结构 的 另外 一 种 变化 。 这 是 一 种 带 有 4 条 总 线 的 高 级 版 
本 ， 两 条 总 线 位 于 寄存 器 输入 端 ， 另 外 两 条 位 于 寄存 器 输出 端 。 为 使 寄存 器 能 够 接收 总 线 
4 或 总 线 如 上 的 数据 ， 必 须 增加 多 路 选择 器 的 数目 。 这 个 新 结构 不 会 增加 新 指令 。 图 6-1 和 
图 6-2 中 的 结构 可 以 实现 任 一 机 器 级 指令 。 我 们 所 要 做 的 就 是 通过 允许 并 行 操作 来 提升 性 
能 (假设 所 有 其 他 因素 完全 相同 )。- 例 如， 将 R 连 到 总 线 C 上、 将 R1 EARD 上 ,将 总 
线 C 上 的 数据 复制 到 总 线 4 上 ， 将 总 线 D 上 的 数据 复制 到 总 线 B 上 ， 将 总 线 A 与 R0 相连 、 
总 线 BAG RI 相连 ,然后 触发 这 两 个 寄存 器 ， 可 以 交换 寄存 器 RO 和 RI 的 内 容 ， 方法 是 将 
寄存 器 RO ARI 路 由 到 总 线 C 和 DD, KAR CAD MAR HPL BALA, 将 总 线 4 和 8B 
接 到 寄存 器 RO 和 R1， 然 后 触发 两 个 寄存 器 。 这 幅 框图 目的 是 说 明 可 以 通过 适当 增加 资源 来 
扩展 CPU. 

若 我 们 想 实 现下 面 的 操作 : 

[RO] « [RO] + [R1] 

[T] [R1] 

为 了 执行 这 些 操作 ， 图 6-1 中 的 简单 结构 可 能 需要 几 个 微 操作 。 而 图 6-3 中 的 结构 可 
以 在 一 个 时 钟 周 期 内 将 其 执行 完毕 ， 因 为 可 以 将 RO 放 在 总 线 C 上 ,将 Rl 放 在 总 线 D 上 。 
ALU 被 置 为 加 法 ， 加 法 运算 的 和 A (B, C) 经 多 路 选择 器 M_ALU B 放 在 总 线 B 上 ， 然 后 
经 多 路 选择 器 M_RO 被 存 人 寄存 器 RO0 中。 由 于 R1 已 经 被 放 在 了 总 线 D 上 ， 可 以 通过 多 路 
选择 器 M_ALU_A 将 其 放 在 总 线 4 上 ， 然 后 经 过 多 路 选择 器 M_T 存 人 寄存 器 了 中 。 
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来 自 存储 器 MAB 
总 线 4 
的 数据 输出 Gr s 





注意 1: 从 存储 器 中 读 出 的 
数据 可 被 直接 保存 在 IR 中 。 


”注意 2 ，PC 寄存 器 带 有 
自 增 器 ， 不 必 使 用 ALU 


注意 3 : 为 了 提供 临时 
存储 ， 增 加 了 一 个 程序 员 
不 可 见 的 寄存 器 7 


注意 4: 总 线 可 以 通 
过 一 个 多 路 选择 器 连接 到 
BRA 上 ， 
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图 6-2” 另 一 种 CPU 结构 


6.1.2 ”生成 微 操 作 


接 下 来 的 问题 就 是 怎样 运行 微 程 序 以 生成 解释 执行 机 器 级 操作 所 需 的 控制 信号 ， 即 对 于 
每 个 可 能 的 操作 码 和 取 指 周期 ， 怎 样 才能 将 操作 码 转 化 成 一 串 17 位 的 二 进 制 值 序列 。 

使 用 微 程序 控制 单元 是 产生 控制 信号 的 常用 方法 ， 这 项 技术 于 1951 年 由 英国 曼彻斯特 
大 学 的 莫 里 斯 威 尔 克 斯 发 明 的 。 图 6-4 给 出 了 一 个 微 程 序 控制 单元 的 结构 。 这 种 结构 应 该 
给 读者 一 种 似曾相识 的 感觉 ， 因 为 它 是 一 台 “ 计 算 机 中 的 计算 机 ”"， 虽然 它 是 有 着 宽 指 令 字 
的 特殊 计算 机 。 由 于 缺少 ALU 和 寄存 器 组 ， 可 以 将 微 程 序 控 制 单元 视 作 非 常 复杂 的 序列 发 
生 器 。 微 程序 控制 单元 所 执行 的 程序 的 输入 是 将 要 执行 的 机 器 级 操作 码 ， 输 出 是 总 线 使 能 信 
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图 6-3 ”四 总 线 CPU 结构 


号 、 多 路 选择 器 控制 信号 、 时 钟 信 号 以 及 处 理 咒 控制 信和 号。 

让 我 们 从 头 开始 。 下 一 条 将 被 执行 的 机 器 级 指令 的 操作 码 被 送 入 控制 单元 的 映射 只 读 存 
储 器 (mapping ROM)。 了 映射 只 读 存 储 器 只 是 一 张 查找 表 ， 将 操作 码 翻译 为 解释 执行 机 器 级 
操作 的 微 程序 的 第 一 条 微 指令 的 地 址 。 使 用 映射 只 读 存 储 器 可 以 使 设计 者 不 必 再 担心 指令 编 
人 码 的 问题 ， 从 而 关注 于 价格 。 映 射 只 读 存 储 器 增加 了 指令 通路 中 的 译 码 延迟 。 而 且 ， 仅 需 简 
单 地 写 出 适当 的 微 程 序 并 将 其 放 入 微 程序 只 读 存储 器 (控制 存储 器 )， 就 可 以 随时 向 计算 机 
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中 增加 新 的 指令 ， 然 后 就 可 以 用 映射 只 读 存 储 器 中 未 分 配 的 操作 码 指向 这 段 微 程序 。 

假设 微 程序 计数 器 中 含有 完成 取 指 操作 的 微 程序 的 第 一 条 微 指 令 地 址 。 根 据 该 地 址 可 以 
在 只 读 存 储 器 中 查 到 对 应 的 微 指 令 ， 然 后 将 其 加 载 到 微 指令 寄存 器 中 。 在 图 6-4 中 ， 微 指令 
寄存 器 有 3 个 字段 : CPU 控制 字段 提供 了 控制 计算 机 的 寄存 器 、 存 储 器 、ALU 和 三 态 门 的 
控制 位 ;下 一 条 微 指令 地 址 字段 给 出 了 要 分 支 转移 成 功 时 下 一 条 将 被 执行 的 微 指令 的 地 址 ; 
条 件 码 选 择 字 段 则 选 出 将 要 被 测试 的 条 件 码 ， 以 确定 是 否 要 进行 分 支 操作 (条 件 包括 总 是 进 
行 分 支 和 从 不 进行 分 支 )。 

若 选 出 的 条 件 是 从 不 进行 分 支那 么 微 程 序 计数 器 将 生成 顺序 的 下 一 条 微 指令 地 址 。 如 
果 条 件 码 选择 字段 选 出 了 Z 位 ， 它 将 被 送 往 微 程序 计数 器 。 如 果 Z 位 为 真 ， 则 下 一 条 微 指 
令 地 址 字段 的 内 容 将 被 送信 微 程序 计数 器 ， 并 从 该 地 址 读 人 微 指令 以 强制 执行 分 支 。 如 果 也 
位 为 假 ， 微 程序 计数 器 不 会 重新 加 载 新 值 ， 微 程序 将 继续 正常 执行 。 

图 6-4 的 微 程序 控制 单元 通过 3 个 端口 与 CPU 通信 : 来 自 机 器 指令 寄存 器 的 操作 码 ， 
HEA CCR 的 条 件 码 ， 以 及 将 被 送 往 CPU 各 处 控制 数据 流 的 微 程序 控制 信号 . 


操作 码 者 令 寄存 器 


这 个 控制 信号 决定 了 操作 码 控制 单元 








是 顺序 地 执行 下 一 条 微 
6 she 映射 只 读 存 
指令 还 是 进行 分 支 转移 。 fe BB ase ES 
分 支 地 址 序 的 起 始 地 址 








起 始 地 址 


微 程 序 计 数 器 








地 址 
微 程序 只 读 存储 器 
数据 


到 总 线 、ALU 和 
寄存 器 的 控制 信号 


mutes 


下 一 条 微 指令 地 址 条 件 码 选择 CPU 控制 单元 





使 用 这 些 来 自 ALU 的 
信号 选择 下 一 条 微 指令 


来 自 a 

条 件 码 多 路 选择 器 fit 和 
iti 2 

n 3 

9 








图 6-4 ” 微 程 序 控制 单元 
微 程序 设计 技术 在 20 世纪 80 年 代 非 常 流行 ， 那 时 主 存 价格 昂贵 ， 使 用 微 程序 解释 执行 
复杂 指令 进而 执行 密集 代码 的 性 价 比 很 高 。 随 着 主 存 价格 不 断 降低 旦 速度 不 断 提高 ， 用 微 程 
序 解 释 执行 机 器 级 指令 不 再 是 一 个 有 吸引 力 的 主意 。 目 前 微 程序 设计 技术 仍 被 用 于 Pentium 
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等 处 理 器 中 ， 用 于 实现 一 些 非常 复杂 的 指令 。 

在 下 一 他， 我们 将 看 到 一 个 完全 不 同 的 计算 机 结构 ， 它 使 用 寄存 器 - 寄存 器 型 ( load- 
store 型 ) 指令 集 。 我 们 将 看 到 ， 尽 管 体 系 结构 与 组 成 是 相互 正 交 的 ， 但 有 时 两 者 还 是 存在 很 
自然 的 紧密 联系 。 我 们 将 介绍 一 个 类 RISC 机 器 的 体系 结构 和 组 成 ( 即 ARM 或 MIPS)， 从 
描述 单 周 期 CPU 的 实现 开始 ， 然 后 介绍 多 周期 CPU 和 流水 线 CPU 的 组 成 结构 。 


垂直 和 水 平 微 程序 设计 

微 指 令 字 段 可 能 非常 长 ， 因 为 它 含 有 所 有 三 态 总 线 驱 动 器 、 寄 存 器 时 钟 、ALU 输 
和 入， 存储器 控制 等 信息 。 超 过 100 位 宽 的 微 指 令 也 是 常见 的 。 对 微 指 令 进 行 编码 有 两 种 
方法 : 一 种 叫 作 水 平 编码 ， 另 一 种 巴 作 答 直 编码 。 在 使 用 水 平 编码 的 系统 中 ， 微 指令 中 
的 位 直接 控制 CPU。 例如， 如 果 有 8 个 寄存 器 可 以 将 数据 放 到 总 线 上 ， 那 么 微 指 令 中 将 
有 8 个 使 能 信号 ， 每 个 信号 控制 一 个 寄存 器 。 

重 直 编码 需要 在 微 指令 寄存 器 与 真正 的 时 钟 /使 能 /控制 信号 之 间 使 用 一 个 二 级 译 
码 器 。 例 如 ， 如 果 有 8 个 寄存 器 可 以 将 数据 放 到 总 线 上 ， 微 指令 寄存 器 使 用 3 位 从 8 个 
寄存 器 中 选 出 一 个 ， 然 后 译 码 器 将 这 个 3 位 的 寄存 器 选择 码 转 换 成 8 选 1 选 择 信号 ; 即 
必须 使 用 额外 的 还 辑 将 3 位 寄存 器 选择 码 转换 成 8 选 1 使 能 信号 ， 每 个 信号 控制 一 个 寄 
存 器 。 





微 指 令 寄存 器 微 指令 寄存 器 
寄存 器 使 能 字段 寄存 器 使 能 字段 
(使 能 寄存 器 到 总 线 4 的 通路 ) (使 能 寄存 器 到 总 线 4 的 通路 ) 





Ra, Ra, Ra; Ra;s Re RaRa; Ra; 


Ra, Ra Ra; Re, Re, Re; 


个 总 Aas i 
8 个 总 线 控制 信 3-8 译 码 器 
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8 个 总 线 控制 信和 号 8 个 总 线 控制 信号 
水 平 编码 垂直 编码 © 


垂直 编码 指令 寄存 器 比 水 平 编码 指令 寄存 器 速度 慢 ， 这 是 因为 译 码 需 要 额外 延迟 。 
然而 ， 在 一 条 水 平 编码 的 微 指令 中 ， 操 作 可 以 并 行 执行 (例如 ， 可 以 选择 多 个 寄存 器 作 
为 目的 操作 数 )。 这 对 垂直 编码 来 说 是 不 可 能 的 ， 也 就 是 说 ， 寄 存 器 选择 字段 只 能 定义 
一 个 特定 的 寄存 器 。 一 个 真实 的 系统 可 能 会 使 用 重 直 编码 与 水 平 编码 混合 的 方案 。 





| 毫 微 程序 设计 

| 微 程序 占据 了 硅 片 上 可 以 被 其 他 电路 (例如 ，Cache) 使 用 的 空间 。 毫 微 程序 设计 
nanoprogramming 提供 了 一 种 通过 压缩 微 代 码 来 压缩 微 程序 的 方法 。 假 设 微 指 令 有 100 
位 长 。 这 意味 着 有 2 "条 可 能 的 微 指令 ， 这 是 一 个 相当 大 的 数字 。 而 真实 计算 机 中 不 同 
微 指 令 的 数量 可 能 非常 小 。 毫 微 程序 设计 将 控制 存储 器 中 所 用 的 微 指 令 放 入 一 块 很 小 的 

| 存储 器 中 。 然 后 用 指向 实际 微 指 令 的 指针 替换 控制 存储 器 中 的 代码 。 这 种 方法 减少 了 控 

| 制 存储 器 的 位 数 ， 其 代价 是 向 微 指令 翻译 过 程 中 增加 了 一 个 额外 的 段 。 
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映射 只 读 存 储 器 将 操作 码 翻 译 为 
控制 存储 器 中 微 程序 的 第 一 条 微 指 
令 地 址 。 


控制 存储 器 中 含有 不 同 宏 指令 对 应 
的 微 程序 。 然 而 ， 控 制 存储 器 的 每 一 
项 都 是 一 个 指针 ， 指 向 毫 微 程 序 只 读 
存储 器 中 的 实际 微 指令 。 


毫 微 程序 只 读 存储 器 
中 存放 了 实际 的 微 指令 。 


OTE SS irae 


考虑 一 个 假设 的 例子 。 某 计算 机 的 操作 码 为 8 位 ， 它 有 200 条 机 器 指令 ， 每 条 指令 
需要 4 个 150 位 宽 的 微 指令 。 经 观察 ， 该 计算 机 只 有 120 条 微 指 令 。 我 们 来 计算 两 个 
fii: (a) 传统 微 程序 设计 所 需 的 控制 存储 器 的 位 数 ; (b) 若 使 用 毫 徽 程序 设计 ， 所 需 的 控 
制 存储 器 位 数 。 
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| 
| 
| 
| 
| 
| 
| 
方案 (a) 
200 条 机 器 指令 ， 每 条 指令 需要 4 条 微 指令 ， 共 需 200 x 4=800 条 微 指 令 。 
| 映射 只 读 存 储 器 用 一 个 8 位 的 操作 码 从 800 条 微 指令 中 选 出 一 条 ， 这 些微 指令 需要 
256 F x10 位 的 ROM ( 即 2560 位 )。 映 射 只 读 存 储 器 有 10 位 宽 ， 因 为 2 "=1024， 这 是 
E 800 大 的 最 小 的 2 HR, 
控制 存储 器 需要 800 F x150 位 =120 000 位 。 控 制 存储 器 和 映射 只 读 存 储 器 的 总 位 
| 数 为 120 000+2 560=122 560 位 。 
方案 (b) 
| 毫 微 程序 只 读 存储 器 中 有 120 条 150 位 宽 的 微 指 令 ; 这 需要 120x150=18 000 位 的 
存储 容量 。 
120 条 微 指 令 需 要 7 位 地 址 进行 寻 址 (2 = 128 )。 控 制 存储 器 包含 800 条 微 指令 ， 
| 每 条 需要 一 个 7 位 指针 ， 共 需 800 x 7=5,600 位 。 
党 微 程序 设计 需要 的 存储 容量 为 2 560 位 (映射 只 读 存 储 器 )+5 600 位 (控制 存储 器 ) 
+18 000 位 ( 毫 微 程序 存储 ) = 26 160 位 ， 相 比方 案 (a) 大 约 减 少 了 80%。 
| 该 例子 说 明了 毫 微 程序 设计 能 够 将 控制 存储 器 的 容量 从 122 560 位 减少 到 26 160 
位 ， 但 其 代价 是 增加 了 访问 毫 微 存 储 器 的 时 间 。 


6.2 RISC 的 组 成 

本 节 将 介绍 一 个 简单 RISC 处 理 器 的 组 成 结构 ， 这 将 给 后 面 有 关 RISC 体系 结构 特点 的 
讨论 莫 定 坚实 的 基础 ,这些 特点 使 得 RISC 结构 非常 适合 流水 实现 。 图 6-5 给 出 了 一 个 假想 
处 理 器 的 指令 编码 格式 ， 该 处 理 器 与 ARM、MIPS 等 处 理 器 颇 有 几 分 相似 。 我 们 只 是 将 它 变 
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得 更 简单 一 些 。 
操作 码 中 最 高 的 6 位 一 一 31 一 26 位 ， 定义 了 指令 , 一 位 决定 一 条 指令 ; 即 指令 的 形式 
为 100000，…，010000，001000，…， 等 等 。 当 然 ， 这 浪费 了 很 多 二 进 制 位 ， 但 它 确实 简 
化 了 指令 编码 。 指 令 为 : Load(L)，Store(S)， 分 支 (B)， 跳 转 (])， 寄 存 器 - 寄存 器 (R2R) 和 
保留 指令 (X)。 第 25 位 为 立即 数位 ， 记 作 #， 指 明 指 令 是 使 用 第 二 个 源 寄 存 器 还 是 立即 数字 
段 作 为 源 操 作 数 。24 ~ 21 位 给 出 了 一 个 任何 指令 都 能 使 用 的 参数 (例如 ， 定 义 寄 存 需 - 寄 
存 器 操作 的 类 型 (加 ,， 减 ， 与， 或 等 等 )， 或 定义 分 支 操 作 的 条 件 )。 
操作 码 寄存 器 立即 数 














RIR: X # WRAT ” 源 操作 数 2 目的 操作 数 立即 数 
31 30 29 28 27 26 25 24 2120 1817 1514 1211 0 
图 6-5 假想 计算 机 的 指令 格式 
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位 于 20 ~ 12 位 的 3 个 寄存 器 选择 字段 S1、S2 和 D， 选 出 将 参与 当前 操作 的 寄存 器 。 
这 里 所 用 的 是 寄存 器 字段 为 3 位 ， 可 以 寻 址 8 (2°=8) 个 寄存 器 。 最 后 ，11 一 0 位 这 个 12 
位 的 字段 给 出 了 一 个 可 被 指令 使 用 的 立即 数 。 本 小 节 最 后 将 提出 一 个 问题 ， 请 读者 对 这 种 编 
码 方案 进行 讨论 并 给 出 另 一 种 方案 。 

下 面 是 该 指令 集 支 持 的 一 些 经 典 操作 : 


汇编 格式 RTL 定义 

LDR D, (81,82) [D] = (M( [si] + [s2] )] 带 有 两 个 索引 的 寄存 器 间接 寻 址 

LDR D, (S1,#L) [D] « [M( [S1] +L )] 偏 移 量 为 立即 数 的 寄存 器 间接 寻 址 
STR (S1,#L),S2 [M( [S1] + L )] [s2] 偏 移 量 为 立即 数 的 寄存 器 间接 寻 址 
ADD D, $1,S2 [D] + [81] + [S2] 寄存 器 - 寄存 器 型 

ADD D, $1,#L [D] + [81] + L 带 有 立即 数 操作 数 的 寄存 器 - 寄存 需 型 
BEQ L [PC] + [PC] +441. 相对 条 件 分 支 

JMP (S1,#L) [pc] —[s1] 4 L 转移 到 某 个 被 算出 的 地 址 的 无 条 件 跳 转 


正如 读者 所 看 到 的 ， 这 些 指令 涵盖 了 ARM 提供 的 许多 指令 类 型 (尽管 没有 包括 条 件 执 
行 一 一 这 正 是 留 给 学 生 的 男 一 个 练习 )。 

图 6-6 描述 了 现代 处 理 絮 中 一 个 最 重要 的 部 件 ， 带 有 通用 寄存 内 文件 的 多 端口 存储 器 。 
图 6-1 中 基于 总 线 的 计算 机 可 以 实现 任意 数量 的 寄存 器 ， 只 要 通过 合适 的 三 态 门 将 它们 连 到 
总 线 上 就 可 以 。 然 而 ， 高 性 能 计算 机 
中 需要 的 是 能 被 并 行 访问 的 快速 寄存 
器 阵列 。 人 们 已 经 设计 出 专用 的 高 速 
寄存 器 文件 ， 它 们 可 被 集成 到 超大 规 
模 集 成 电路 芯片 中 ， 也 能 作为 一 个 独 
立 的 组 件 购 买 。 这 些 设备 也 称 为 多 端 


多 端口 存储 器 


端口 3 

AEREN 控制 控制 ”控制 
口 存 储 器 组 ， 因 为 它 带 有 几 个 能 并 行 端口 1 端口 2 端口 3 
使 用 的 访问 端口 。 例 如 ， 图 6-6 中 的 
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系统 有 3 个 地 址 端口 ， 这 意味 着 可 以 io E 5 
同时 寻 址 3 个 寄存 器 。 比 如 可 以 同时 图 6-6 多 端口 寄存 需 文 件 
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读 两 个 源 寄 存 器 ， 并 写 一 个 目的 寄存 器 。 有 了 这 样 的 存储 器 ， 就 可 以 在 一 个 时 钟 周期 内 实现 
ADD D，s1,s2 这 样 的 操作 ， 它 将 寄存 器 S1 的 内 容 与 寄存 器 S2 的 内 容 相 加 ， 并 把 结果 保存 
EATA D 中 。 

现在 我 们 从 基本 结构 开始 构建 处 理 器 ,然后 不 断 添加 新 的 功能 ， 直 到 得 到 一 个 完整 的 处 
理 器 。 我 们 将 其 叫 作 直通 (flow-through) 处 理 器 ， 因 为 可 以 想象 指令 从 左 侧 的 程序 计数 器 流 
过 该 处 理 器 ， 直 至 右 侧 的 数据 存储 器 (这 个 比喻 在 介绍 流水 线 时 也 很 有 帮助 )。 图 6-7 描述 
了 一 个 使 用 多 端口 存储 器 作为 寄存 器 文件 的 简单 处 理 器 。 假 定 这 是 一 个 类 似 MIPS 或 ARM 
的 三 寄存 器 地 址 结构 的 典型 RISC 处 理 器 。 这 并 不 是 一 个 完整 的 处 理 需 ， 因 为 它 没有 实现 立 
即 数 操作 数 或 指令 流 控制 (无 条 件 分 支 和 条 件 分 支 ， 子 程序 调用 和 返回 )。 它 可 以 实现 寄存 
器 - 寄存 器 操作 、load 和 store 等 操作 。 

假设 刚 开 始 时 程序 计数 器 CPC) 中 保存 了 下 一 条 将 被 执行 的 指令 的 地 址 。 该 地 址 被 送 往 
指令 存储 器 并 经 自 增 器 加 4 后 送 回 PC， 以 指向 下 一 条 指令 (假设 指令 字 长 32 fi, RK 
字 节 编 址 )。 | 

指令 被 从 指令 存储 器 中 取出 ， 存 储 器 中 存放 了 当前 指令 对 应 的 32 位 指令 字 。 在 图 6-7 
中 ，3 个 寄存 器 地 址 字段 被 送 往 寄 存 器 文件 ， 读 出 源 寄存 器 S1 和 S2。 这 些 寄存 器 的 内 容 将 
被 送 往 ALU， 在 那里 被 用 来 生成 寄存 器 -寄存 器 操作 (例如 ， 与 或 、 加 、 减 ) 的 结果 ,或 者 
加 到 一 起 得 到 load BK store 指令 的 有 效 地 址 。 
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目的 操作 数 
图 6-7 ”一 个 单 周期 直通 处 理 咒 的 内 核 结 构 


如 果 是 寄存 器 一 寄存 器 操作 ，ALU 的 结果 将 经 过 多 路 选择 器 写 入 寄存 器 文件 的 目的 端 
口 ， 从 而 被 写 回 寄存 器 文件 中 。 如 果 是 load 操作 ，ALU 的 输出 将 作为 操作 数 的 有 效 地 址 ， 
用 来 从 数据 存储 器 中 读 出 操作 数 ， 读 出 的 操作 数 经 过 多 路 选择 央 写 回 寄存 需 文 件 。 如 果 是 
store 操作 ， 寄 存 器 文件 中 寄存 器 S2 的 内 容 将 被 送 往 数据 存储 器 的 数据 输入 。 请 注意 ， 在 这 
种 实现 方式 里 ，store 操作 不 能 使 用 源 寄存 器 S2 作为 地 址 指针 。 

现在 来 看 一 个 更 加 完整 的 实现 方案 。 它 使 用 图 6-5 所 示 指 令 格 式 的 load/store 处 理 需 。 
图 6-8 在 图 6-7 的 基础 上 主要 进行 了 两 处 改进 。 第 一 个 改进 是 增加 了 处 理 指令 字 中 立即 数 的 
能 力 。 由 于 立即 数 只 有 12 位 宽 ,， 在 被 ALU 使 用 之 前 必须 扩展 成 32 位 ， 这 就 要 求 在 从 指令 
字 的 立即 数字 段 到 ALU 之 间 的 数据 通路 上 增加 有 一 个 位 扩展 模块 。 还 必须 在 ALU 的 输入 
端 放置 一 个 多 路 选择 器 ， 用 于 在 来 自 寄 存 器 组 的 S2 操作 数 和 立即 数 之 间 进 行 选择 。 对 基本 
CPU 做 的 第 二 个 改进 是 在 程序 计数 器 的 输入 端 增加 一 个 四 输入 多 路 选择 器 ， 用 于 从 3 条 路 
径 中 选择 一 条 ， 以 支持 分 支 和 跳 转 指令 。 接 下 来 将 通过 分 析 不 同类 型 指令 是 如 何 执行 的 来 介 
绍 该 处 理 器 的 操作 。 
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寄存 器 文件 


选择 S2 或 立即 数 
作为 第 二 个 操作 数 数据 中 选择 








选择 序列 中 的 下 一 条 指令 的 地 址 、 
计算 出 的 跳 转 地 址 或 立即 数 作为 PC 
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图 6-8 直通 处 理 器 更 详细 的 结构 


6.2.1 寄存 器 一 寄存 器 数据 通路 


这 个 处 理 器 执行 的 最 简单 的 指令 是 寄存 器 -寄存 器 型 ， 如 图 6-9 所 示 。 对 于 形 如 
Operation D, S1, S2 的 寄存 器 一 寄存 器 型 指令 ， 我们 要 做 的 全 部 工作 就 是 将 寄存 器 文件 中 
两 个 源 寄存 器 的 值 送 往 ALU， 然 后 将 运算 结果 写 回 寄 存 器 文件 的 输入 Das, (目的 )。 寄 存 
器 文件 的 输入 端口 Dan 应 增加 一 个 多 路 选择 器 ， 因 为 要 被 写 和 人 寄存 器 文件 的 数据 可 能 来 自 
ALU， 也 可 能 是 load 操作 中 从 数据 存储 器 中 读 出 的 数据 。 请 注意 ， 这 种 操作 和 load/store 操 
作 都 不 需要 PC 控制 模块 ， 因 为 PC 的 输入 是 [PC]+4， 指 向 顺序 的 下 一 条 指令 。 

ADD R1,R2,R3 ADD R1,R2,R3 ADD R1,R2,R3 
操作 码 操作 数 结果 
寄存 器 文件 
SS 人 Memory MPLX 


结果 ( 写 回 ) 


FER 2 {i 
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Jump_adder 


图 6-9 寄存 器 一 寄存 器 数据 通路 


1.Load 和 Store 操作 

图 6-10 与 图 6-11 分 别 描述 了 1oad 和 store 操作 的 数据 流 。 在 图 6-10 中 ， 指 令 LDR D, 
(si, #L) 中 的 (S, #L) 是 操作 数 地 址 ， 由 源 寄 存 器 S1 的 值 加 上 指令 中 的 立即 数 工 计算 得 到 ; 
即 [S1]+L。 这 个 由 ALU 计算 出 的 有 效 地 址 用 于 查找 存储 器 中 的 实际 操作 数 ， 这 个 操作 数 将 
经 过 存储 器 多 路 选择 器 被 送 往 寄存 器 文件 的 目的 端口 ， 存 人 地 址 为 D 的 寄存 器 中 。 
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BA 


指 源 操 作 数 操作 数 地 址 。 操作 数值 
LDR DEED LDR D, ED Lor @ (s1, #1) 


寄存 器 文件 








存储 器 
Memory MPLX 


读 出 的 数据 


从 存储 器 中 
读 出 的 数据 被 
TARER D 





ALU 的 输出 [S1] + LOAF 
ump adder 存 器 值 加 偏 移 量 ) 是 操作 
数 在 存储 器 中 的 地 址 
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图 6-10 load ATEA TA Of) BARE 


图 6-11 描述 了 执行 指令 STR s2, (s1, #0) 的 信息 流 。 该 图 和 图 6-10 类 似 ; 区 别 在 于 数 
据 的 传输 方向 。 存 储 器 地 址 [S1] + L load 操作 中 的 计算 完全 相同 ,但 是 来 自 寄存 器 文件 
的 源 操作 数 S2 将 被 送 往 存 储 器 的 数据 输入 端 


指令 









STR S2, (EEFE) 
寄存 器 文件 


Memory MPLX 


as (S1, #L) 


要 存储 的 数据 






PC_MPLX 
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图 6-11 store 寄存 器 指令 的 数据 通路 


2. 跳 转 和 分 支 操作 

请 回忆 术语 分 支 与 跳 转 ， 它 们 都 描述 了 一 种 改变 计算 机 中 正常 的 顺序 指令 流 的 方法 。 
一 般 而 言 ， 术 语 分 支 (branch) 暗含 了 跳 转 到 相对 于 PC 当前 值 的 某 个 位 置 的 意思 ， 而 跳 转 
(jump) 则 代表 了 到 某 个 绝对 地 址 处 的 转移 。 而 且 ， 分支 总 是 有 条 件 的 ; 也 就 是 说 ， 如 果 定 
义 的 条 件 为 真 (例如 ， 等 于 零 时 分 支 ， 或 进位 时 分 支 )， 则 将 发 生 转 移 。 我 们 先 来 看 看 跳 转 
指令 omp (si1， 杠 ) ， 然 后 再 看 看 是 相对 条 件 分 支 Bzo Lo KI 6-12 描述 了 执行 跳 转 操作 时 的 信 
息 流 。 

无 条 件 跳 转 操作 后 下 一 条 要 执行 的 指令 位 于 地 址 (S1, #L) 处 ， 这 意味 着 我 们 获得 寄存 器 
S1 的 值 ， 将 其 与 指令 中 的 立即 数 工 相 加 ， 然 后 将 结果 送 入 程序 计数 器 。 指 令 中 的 12 位 立即 
数 将 首先 被 符号 扩展 为 32 位 。 从 寄存 器 文件 中 读 出 的 源 寄存 器 S1 的 值 由 ALU 与 偏 移 量 加 
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到 一 起 。 结 果 被 送 往 PC 多 路 选择 器 ， 然 后 被 写 人 程序 计数 器 。 接 下 来 ， 从 地 址 为 [S1]+L 
的 存储 器 单元 中 读 出 下 一 条 指令 


JMP (S1, #L) 
操作 码 sere 












经 过 符号 扩展 得 到 
的 32 位 字 地 址 偏 移 量 






32 位 分 支 


Jump_adder 跳 转 地 址 | 跳 转 目 标 地 址 (S1, #L) 
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图 6-12 ” 跳 转 指令 ome (s1, #L) 的 执行 过 程 


图 6-13 描述 了 条 件 分 支 指令 age 工 的 执行 过 程 。 在 这 个 例子 里 ， 我 们 使 用 了 相对 程序 
计数 器 寻 址 方式 ， 即 分 支 目标 地 址 是 程序 计数 器 的 值 加 上 指令 中 的 偏 移 量 。 


指令 BRA Target 









Memory_MPLX 






经 过 符号 扩展 得 到 
的 32 位 字 节 地 址 偏 









zN Branch_adder _ = 移 量 

PC MPLX PC 多 路 选择 器 由 CCR 的 Z 。 经 过 符号 扩展 得 到 的 

控制 位 控制 。 它 在 下 一 指令 地 址 与 32 位 字 节 地 址 偶 移 量 
分 支 目 标 地址 之 间 进 行 选 择 
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图 6-13 ”条件 分 支 指令 的 执行 


从 图 6-13 可 以 看 出 ， 条 件 分 支 的 实现 没有 用 到 寄存 器 文件 .ALU 和 存储 器 数据 通 
路 。 它 所 做 的 全 部 工作 就 是 读 出 程序 计数 器 的 值 并 与 指令 中 的 偏 移 量 相 加 。 然 而 ， 必 须 对 
偏 移 量 进行 符 号 扩展 ， 将 它 从 字 偏 移 量变 成 字 节 偏 移 量 。 偏 移 量 必须 乘 以 4， 这 可 以 通过 
左 移 2 位 来 实现 ， 因 为 计算 机 是 32 位 的 ， 指 令 地 址 总 是 可 以 被 4 整除 。 这 使 得 分 支 范 围 在 
一 2 043 ~ +2052 之 间 。 请 注意 ， 与 偏 移 量 相 加 之 前 PC 的 值 应 加 4. 

实现 条 件 分 支 (例如 ， 等 于 零 时 分 支 ) 所 要 做 的 就 是 根据 计算 机 条 件 码 寄存 器 中 的 乙 位 
判断 目标 指令 的 地 址 究竟 是 分 支 目标 地 址 还 是 顺序 的 下 一 条 指令 的 地 址 。 图 6-13 中 ，PC 多 
路 选择 器 的 某 个 控制 位 与 Z 位 连 在 一 起 ， 以 便 根据 分 支 是 否 发 生 进行 选择 。 
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6.2.2 单 周 期 直通 计算 机 的 控制 

下 一 步 是 说 明 我 们 所 构造 的 计算 机 怎样 将 机 器 指令 翻译 为 要 执行 的 动作 。 我 们 需要 哪 
些 信和 号 来 控制 从 图 6-8 至 图 6-13 中 的 系统 ? 首先 必须 指出 的 是 ， 此 处 仅 关注 基本 原理 ,并 
没有 涉及 中 断 和 异常 处 理 ， 或 者 指令 和 数据 存储 器 的 控制 (指令 和 数据 是 如 何 进入 存储 顺 
的 )。 而 且 ， 在 真实 的 计算 机 中 ， 指 令 和 数据 存储 器 并 不 是 真正 的 内 存 系统 ， 而 是 它 的 片上 
Cache。 在 这 里 ， 我 们 只 关心 解释 执行 机 器 指令 的 一 般 方 法 。 

K 6-7 列 出 了 图 6-8 中 结构 所 用 的 控制 信号 。 正 如 读者 所 看 见 的 ， 实 际 需要 的 控制 信和 号 
相当 少 。 包 括 用 来 选择 16 个 ALU 操作 的 4 个 控制 信号 、4 个 多 路 选择 器 控制 信 导 ， 以 及 1 
个 存储 器 写 信号 。 


表 6-7 直通 ( 单 周 期 ) 计算 机 所 需 的 控制 信号 





ALU 
4 (功能 ) 




















1 (操作 数 S2/L) 
2 (顺序 ， 分 支 ， 跳 转 ) 


1 (ALU/ 存储 器 的 数据 ) 


一 共 需 要 使 用 4 个 多 路 选择 器 控制 信号 ， 这 是 因为 共有 3 个 多 路 选择 器 ; 其 中 两 个 各 有 
一 个 控制 信号 ， 而 PC 多 路 选择 器 需要 两 个 控制 信号 ， 因 为 它 必 须 从 3 条 路 径 中 进行 选择 。 
指令 存储 器 不 需要 控制 信号 ， 因 为 它 从 PC 中 取得 地 址 ， 然 后 读 出 一 条 指令 。 我 们 将 在 《 计 
算 机 存储 与 外 设 》 第 1 章 中 看 到 ， 指 令 大 都 由 高 速 指令 cache 提供 ， 它 与 图 6-14 中 指令 存 
储 器 的 功能 相同 。 


PC | 
0 





1 ( 写 寄存 器 文件 ) 
1 ( 写 数 据 存储 器 ) 











存储 器 


MPLX Cik 





Write_Destination ALU_Function Memo 


ALU MPLX 


Memory_MPLX 









32 位 立即 数 
目的 操作 数 
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图 6-14 在 计算 机 中 增加 控制 信号 


寄存 器 文件 有 两 个 源 操 作 数 读 端 口 : S1 和 S2。 它 们 不 需要 控制 信号 ， 因 为 寄存 器 文件 
只 是 简单 地 按照 地 址 输入 S1 和 S2 来 提供 数据 (如 果 不 使 用 寄存 器 文件 ，S1 和 S2 的 输出 将 
RAM). ATL, load 操作 或 寄存 器 - 寄存 器 操作 中 需要 写 控制 信号 ， 以 便 将 数据 写 人 目的 
端口 D。 最 后 ， 当 store 操作 向 数据 存储 器 中 写 数 据 时 ， 还 需要 一 个 1 位 的 写 信 号。 


指令 集中 的 部 分 指令 
LDR D, (S1,S2) [D] e [M([S1]+[S2])] 
LDR D, (S1, #L) [D] < [M([S1]+L)] 


STR (S1,#L),S2 [M([S1]+L)] < [S2] 
ADD D,S1,S2 [D] < [S1] + [S2] 
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ADD D,S1,#L 
BEQ L 
JMP (S1,#L) 


在 一 个 时 钟 周期 将 结束 的 时 候 ， 需 要 使 用 一 个 单独 的 时 钟 信 号 将 新 的 地 址 保存 在 PC 


[S1] +L 
< [PC] +4+L 
[PC] e [S1]+L 


中 ， 并 将 数据 写 人 寄存 器 文件 和 数据 存储 器 。 

K 6-8 列 出 了 实现 每 条 处 理 器 指令 所 需 的 控制 信号。 上 面 的 文本 框 可 以 帮助 读 考 回忆 起 
一 些 指令 及 其 定义 。 对 于 寄存 器 = 寄存 天 指 令 ，4 位 的 ALU 字段 能 够 指定 16 种 操作 中 的 一 
个 ， 它 也 可 以 被 条 件 分 支 指令 使 用 ， 从 16 种 条 件 中 选 出 一 种 。 


表 6-8 ”指令 集 的 实现 























LOAD LDR D, (S1, S2) LDR D, (S1, #L) 
PC MPLX (顺序 的 下 一 条 指令 ) 
ALU MPLX (从 s2 或 立即 数 中 选 一 ) 
Write_Destination (将 操作 数 写 入 寄存 器 文件 ) 
ALU (计算 有 效 操作 数 地 址 S1+S2 或 S1+L) 
Memory_MPLX (读数 据 存 储 器 ) 
STORE STR S1, (S2, #L) 
PC_MPLX (顺序 的 下 一 条 指令 ) 
ALU_MPLX (选择 立即 数 ) 
Write_Destination (从 存储 器 中 读 出 操作 数 ) 
ALU (计算 操作 数 有 效 操作 数 地 址 S1 +L) 
Memory_ Write =1 | ( 写 数据 存储 器 ) 
寄存 器 - 寄存 器 Op D, $1, S2 
PC_MPLX =00 [UW 序 的 下 一 条 指令 ) 
ALU MPLX (从 S2 或 立即 数 中 选 一 ) 
ALU (完成 指令 操作 数字 段 定义 的 操作 ) 
Memory_MPLX |=0 ORFS CHER ALU 的 输出 ) 
Write_Destination jap * | (将 操作 数 写 人 寄存 器 文件 ) 
BR ‘ BRA Target, BCC Target 
PC_MPLX 01 GPA) 
Branch Control (用 功能 位 选择 分 支 条 件 ) 
跳 转 JMP (S1, #L) 
PC MPLX =10 (选择 计算 出 的 跳 转 地 址 ) 
ALU_MPLX (从 S2 或 立即 数 中 选 一 ) 
ALU (计算 有 效 跳 转 地 址 $1 + S2 或 S1+L) 


图 6-15 描述 了 实现 多 个 条 件 分 支 所 需 的 逻辑 电路 。ALU 的 Z、N、C 和 V 位 被 送 往 这 
个 组 合 逻 辑 电 路 ， 按 照 指 令 中 的 分 支 控制 从 16 个 分 支 中 选择 一 个 。 利 用 其 输出 控制 一 个 与 
门 ， 如 果菜 个 分 支 操作 被 选中 且 其 分 支 条 件 为 真 ， 则 与 门 的 输出 为 1。 否 则 ， 其 输出 为 0， 
将 强制 使 用 顺序 的 下 一 条 指令 的 地 址 。 无 论 分 支 成 功 与 否 ，PC 多 路 选择 器 都 会 选择 顺序 的 
下 一 条 指令 的 地 址 而 不 是 分 支 地 址 。 多 路 选择 器 PC_ALU 的 编码 如 下 : 


Bit1 Bito 
0 0 
0) l 


顺序 的 下 一 条 指令 的 地 址 (默认 ， 非 分 支 / 跳 转 ) 











条 件 选 择 逻 辑 

a = = hen 今 存储 器 中 
第 0 位 | 指令 的 ALU 字段 ) 
yx GR q 

作 码 的 B 位) pol 
源 操作 数 一 >| c 


Boi 负 、 进 位 、 
出 标志 位 


ALU 输出 
源 操 作 数 2 
(或 立即 数 ) 


ALU 功能 码 (来 自 指令 
存储 器 中 指令 的 ALU FR) 


图 6-15 ”分支 控制 块 
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执行 时 间 

现在 简单 地 思考 一 下 执行 一 条 指令 需要 多 长 时 间 。 在 直通 单 周期 计算 机 中 ， 指 令 的 平均 
执行 时 间 并 不 重要 。 重 要 的 是 最 长 (或 最 慢 ) 指令 的 执行 时 间 ， 因 为 它 决定 了 处 理 器 的 时 名 
周期 时 间 。 再 强调 一 遍 ， 最 长 (最 复杂 ) 指令 决定 了 时 钟 周期 时 间 ， 这 意味 着 那些 较 简单 的 
指令 的 执行 时 间 比 实际 上 长 。 那 些 复杂 指令 降低 了 性 能 

load 指令 是 执行 时 间 最 长 的 指令 ， 因 为 必须 先 从 存储 器 中 读 出 操作 码 ， 访 问 寄 存 器 文件 
以 计算 操作 数 的 有 效 地 址 ， 利 用 执行 单元 将 寄存 器 中 的 操作 数 与 立即 数 相 加 ， 从 数据 存储 器 
中 取出 操作 数 ， 最 后 ， 将 操作 数 写 回 寄 存 器 文件 。 图 6-16 描述 了 load 操作 过 程 中 的 信息 流 


(加 阴影 的 地 方 为 信息 通路 )。 下 面 是 一 个 读 周期 内 要 完成 的 动作 序列 以 及 它们 的 执行 时 间 : 
LDR D, (S1, #L) LDR D, (S1, #L) LDR D, (S1,#L) LDR D, (S1, #L) 






寄存 器 文件 
Blane. S12 heaps ja | Memory_MPLX 


S2address S2iata 
Doess 


+) 
- 
PC_MPLX (+) 


J ump_adder 


ae 一 一: 
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图 6-16 load 指令 执行 过 程 中 最 长 的 路 径 


eb 各 到 PC 输出 稳定 ), 
) 取 指 令 (从 PC 稳定 到 操作 码 稳 定 )， 如 ems 
3 读 操 作 数 (从 操作 码 稳定 到 操作 数 稳定 )， 
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4) ALU 将 S1 与 82 相 加 的 时 间 ，thivs 

5) 从 ALU 计算 出 的 地 址 值 稳定 到 存储 器 操作 数 稳 定 的 时 间 ，ipnems 
6 ) 存储 器 MPLX 时 间 ，xwpixs 

7) 寄存 器 文件 中 目的 操作 数 的 数据 建立 时 间 ，zr go 

因此 ， 时 钟 周 期 时 间 是 这 些 时 间 的 总 和 : 

T. 


cycle m tpc kä limem i trp 十 1ALU + fomem + IMPLX + IRF so 


6.3 流水 线 简 介 

本 节 将 介绍 流水 线 (pipelining) 的 概念 ， 这 种 技术 借助 指令 重 和 至 执行 提高 效率 。 尽 管 流 
水 线 技术 是 RISC 处 理 器 的 重要 标志 ， 但 必须 强调 的 是 如 今 许多 数字 系统 和 所 有 现代 微 处理 
器 都 使 用 了 流水 线 技术 。 实 际 上 ，Intel 的 pentium 系列 处 理 器 及 其 后 续 处 理 器 的 高 性 能 在 很 
大 程度 上 得 益 于 其 流水 线 技术 。 在 介绍 一 款 简 单 的 流水 线 处 理 器 的 结构 之 前 ， 我 们 首先 来 讨 
论 一 下 流水 线 的 基本 特点 。 需 要 特别 注意 的 是 ， 现 在 我 们 不 再 讨论 刚才 介绍 过 的 单 周 期 处 理 
器 结构 ， 而 是 开始 介绍 一 个 将 指令 分 成 几 段 ， 各 段 分 别 执行 的 处 理 器 结构 o 

图 6-16 描述 了 一 个 执行 形 如 app Ro, R1, R2 ( 即 [RO][R1]+[R2]， 这 里 RO、R1 和 R2 
都 是 寄存 器 ) 指令 的 微 处 理 器 的 机 器 周期 。 时 钟 周期 是 计算 机 中 发 生 的 最 小 事件 ， 机 器 周期 
则 是 执行 一 条 指令 所 需 的 时 间 。 指 令 执 行 分 为 5 个 阶段 : 

取 指 一 一 从 系统 存储 器 中 读 出 指令 app Ro，R1，R2， 并 将 程序 计数 器 加 4。 

译 码 一 一 对 上 一 阶段 从 存储 器 中 读 出 的 指令 译 码 (解码 )。 指 令 译 码 阶段 的 特点 与 指令 
集 复杂 度 有 关 。 定 长 编码 的 指令 可 以 经 过 两 级 门 电 路 快速 译 码 ， 而 复杂 指令 格式 的 译 码 可 能 
需要 基于 ROM 的 查找 表 来 实现 。 

读 操 作 数 一 一 从 寄存 器 RI 和 R2 中 读 出 指令 指定 的 操作 数 ， 并 将 它们 送 入 触发 器 。 








执行 一 一 执行 指令 指定 的 操作 。 
保存 操作 数 一 一 将 执行 阶段 的 结果 写 回 操作 数 的 目的 地 址 。 它 可 能 是 片上 寄存 器 ， 或 外 


部 存储 器 上 的 某 个 位 置 。 在 这 个 例子 里 ， 结 果 被 存 人 寄存 器 RO 中 。 

完成 上 述 5 个 阶段 中 的 每 一 个 阶段 都 需要 花费 一 定 的 时 间 (尽管 所 花费 的 时 间 一 般 是 系 
统 时 钟 周期 的 整数 倍 )。 某 些 指 令 可 能 不 需要 全 部 5 个 阶段 。 例 如 ， 指 令 cmp R1，R2 用 RI1 
WAS R2 来 比较 RA 和 R2 的 大 小 ， 并 根据 比较 结果 设置 条 件 码 ， 它 不 需要 “保存 操作 数 ” 这 
一 阶段 (当然 ,需要 更 新 条 件 码 标志 位 )。 

假设 某 个 处 理 器 按 顺 序 完成 图 6-17 中 的 5 个 阶段 。 在 任何 时 刻 ， 该 处 理 器 只 有 20% 的 
部 分 是 活跃 的 。 其 余 4 个 阶段 共 80% 的 部 分 是 空闲 的 。 例 如 ， 当 指令 处 于 执行 阶段 时 ， 保 
存 操作 数 逻 辑 正在 等 待 结果 ， 此 时 它 什 么 也 不 做 。 一 种 更 好 的 处 理 器 设计 方法 是 将 指令 执行 
的 各 个 阶段 重 释 或 流水 (pipeline) 执行 。 

来 看 看 早期 的 RISC 处 理 器 ， 伯 克利 RISC I Al RISC II 在 改变 传统 指令 系统 的 设计 以 及 
计算 机 在 微 体 系 结构 层 的 设计 方面 产生 了 
很 大 的 影响 。 图 6-18 描述 了 RISC I 的 流 





水 线 。 一 条 指令 E 
指令 执行 被 分 为 两 个 500 ns AY g pe -8 
(slot)， 指 令 在 第 一 个 槽 中 被 取出 。 在 第 二 PAE | 读 操作 数 | Wi Be 





个 500 ns AARP, BEATER IER. TAIT. 图 6-17 指令 在 假想 计算 机 上 的 执行 过 程 
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结果 写 回 等 操作 。 当 前 指令 的 取 指 阶段 一 完成 ， 下 一 条 指令 就 立即 开始 执行 ， 流 水 线 就 是 这 
样 实现 的 。 采用 这 种 方法 ， 在 不 改变 ;实现 技术 或 加 速 时 钟 的 情况 下 ， 可 以 高 效 地 实现 速度 翻 
倍 。 获 得 速度 的 提升 依靠 的 是 更 加 高 效 地 利用 处 理 器 的 功能 部 件 而 不 是 提高 时 钟 频 率 。 

图 6-19 描述 了 更 加 复杂 的 RISC N 的 流水 线 。 取 指 阶 段 被 缩短 为 330ns， 而 指令 的 内 部 
操作 被 分 成 两 个 阶段 : 一 个 是 取 操 作 数 和 执行 阶段 ， 紧 跟 其 后 的 是 保存 操作 数 阶 段 。 在 这 个 
例子 里 ， 三 条 指令 的 执行 可 以 重生 在 一 起 。 


< > + > 
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AFR 执行 保存 操作 数 





图 6-18 RISC 1 的 流水 线 


取 指 wena fe 本 
操作 re 保存 操作 数 


图 6-19 RISC I 的 流水 线 


流水 线 的 最 优 长 度 HEREA” 有 关 ， 是 关于 体系 结构 和 正在 执行 的 代码 的 函数 。 正 如 
我 们 将 要 看 到 的 ， 特 定 类 型 指令 (例如, 分支 以 及 其 他 控制 程序 流 的 指令 ) 的 处 理 方式 在 很 
大 程度 上 影响 了 流水 线 的 长 度 。 取 指 周期 的 时 间 与 取 操 作 数 、 执 行 和 保存 操作 数 等 阶段 的 时 
间 之 和 的 比率 ， 在 决定 流水 线 的 最 优 长 度 上 起 了 至 关 重 要 的 作用 。 尽 管 RISC 风格 的 处 理 器 
的 流水 线 一 般 都 很 得， 但 是 Intel Pentium Pro 有 一 条 10 级 流水 线 ，Pentium 4 的 流水 线 有 20 
级 (在 Pentium 系列 的 各 种 版 本 中 流水 线 最 多 达到 31 级 ) 
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| RISC 处 理 器 的 历史 

IBM/360 被 认为 是 所 有 现代 处 理 器 的 祖先 ， 因 为 它 引 入 了 计算 机 体系 结构 和 指令 系统 
| 的 概念 ， 最 终 引 领 了 20 世纪 70 年代 Intel, Motorola, Zilog 和 其 他 系列 微 处 理 器 的 诞生 。 

回想 起 来 ，360 和 它 的 后 代 就 是 我 们 所 说 的 CISC 处 理 器 。 在 主 存 十 分 昂贵 的 年 代 ， 
| 它们 都 带 有 复杂 的 指令 集 ， 希望 指令 能 够 完成 尽 可 能 多 的 工作 。1974 年 ， 在 IBM 的 沃 
| 森 研 究 中 心 诞生 了 一 款 新 体系 结构 ， 这 是 一 个 名 为 801 项 目的 32 位 RISC 结构 。 该 结构 
从 没有 作为 商品 销售 (实际 上 ， 它 从 没 被 制造 出 来 )， 但 它 却 导致 了 20 世纪 80 年 代 中 期 
| IBM RISC 系列 处 理 器 的 诞生 。 

| RISC 结构 引起 了 学 术 界 的 关注 。 直 到 1985 年 ， 微 处 理 器 (设计 层 的 ) 对 于 教授 和 
| 学 生来 说 仍然 过 于 复杂 ， 而 RISC 结构 再 一 次 将 处 理 器 引入 课堂 ， 因 为 学 生 们 能 够 理解 
| 其 至 能 够 设计 自己 的 RISC 微 体系 结构 。 


mm ee 
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RISC 结构 很 快 就 与 计算 机 界 的 两 大 巨人 联系 起 来 ， 他 们 是 斯 坦 福 大 学 的 John 
Hennessey 和 伯克利 大 学 的 David Patterson, Hennessey 设计 了 MIPS 2444, Patterson 
设计 了 伯克利 RISC I 和 RISC Il (研究 和 教学 用 机 器 )， 这 两 款 机 器 为 Sun 微 系统 公司 的 
SPARC 结构 黄 定 了 基础 。SPARC 的 一 个 特点 是 它 使 用 窗口 化 的 寄存 器 系统 ， 每 当 调用 
子 程序 时 ， 它 允许 程序 员 使 用 一 组 新 的 寄存 器 (但 最 大 深度 只 有 8 )。 

MIPS 的 销量 很 大 ， 这 是 因为 它 被 Nintendo 用 作 游 戏 控制 台 ， 也 被 很 多 大 学 用 作 教 
学 工具 。1983 年 ，ARM (原来 的 Acorn RISC Machine) 在 英国 被 设计 出 来 ， 迅 速成 为 瞪 
| 入 式 应 用 领域 最 受 欢 迎 的 RISC 处 理 器 。MIPS、SPARC 和 ARM 证 明了 一 个 有 关 RISC 

结构 设计 的 简单 事实 : 所 有 这 3 款 处 理 器 的 设计 都 没有 得 到 Intel 和 Motorola 等 组 织 的 
资金 和 人 力 支持 。 
如 今 ， 发 生 在 20 世纪 90 年 代 的 RISC 与 CISC 的 激烈 争论 已 经 烟消云散 。RISC 微 
体系 结构 技术 已 经 融入 当今 所 有 处 理 器 中 。 由 于 Intel 有 能 力 不 断 创新 其 微 体 系 结构 ， 
| Intel IA32 系列 处 理 器 仍然 在 个 人 电脑 世界 中 占据 统治 地 位 。 简 单 的 8 位 CISC 微 处 理 器 
| 用 于 成 本 非常 低 的 应 用 中 ,性 能 更 强 的 32 位 RISC 用 于 高 端 应 用 ， 比 如 智能 手机 中 。 


图 6-20 描述 一 条 五 阶段 流水 线 ， 它 用 5 个 时 钟 周期 就 可 以 完整 地 执行 一 条 指令 。 当 第 
一 条 指令 执行 结束 时 ， 接 下 来 4 条 指令 都 处 于 不 同 的 执行 阶段 。 在 接 下 来 每 个 周期 里 ， 都 会 
有 一 条 指令 执行 结束 
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图 620 五 阶段 流水 线 


在 后 面 的 例子 中 ,我 们 将 忽略 指令 译 码 阶段 。 典 型 的 RISC 结构 中 译 码 阶段 并 不 是 必需 
的 ， 因 为 它 能 与 读 操作 数 阶 段 合 并 。 我 们 将 用 图 6-21 所 示 的 简单 四 阶段 流水 线 来 说 明 流 水 
线 系统 引起 的 一 些 问题 。 在 本 章 的 其 余部 分 ， 我 们 将 以 短 流水 线 为 例 讨论 ， 因 为 它 更 容易 
理解 。 
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图 6-21 四 阶段 流水 线 


在 Intel Pentium 系列 处 理 器 中 ， 流水线 的 长 度 变化 不 一 ， 从 3 级 到 30 级 不 等 。 图 6-23 
描述 了 有 8 个 阶段 的 ARM11 处 理 器 流水 线 。 与 很 多 真实 的 微 处 理 器 一 样 ，ARMI11 处 理 器 
的 流水 线 也 带 有 一 些 并 行 的 段 ， 因 为 要 完成 所 有 操作 ， 线 性 流水 线 会 非常 长 。 正 如 读者 从 
图 6-22 中 看 到 的 那样 ， 流 水 线 的 前 4 段 完全 相同 ， 之 后 是 3 条 并 行 的 流水 线 。 一 条 流水 线 
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处 理 传统 的 寄存 器 -寄存 器 操作 ， 一 条 流水 线 实现 乘法 和 累加 指令 ， 一 条 处 理 load 和 store 
操作 。 像 大 多 数 微 处 理 器 一 样 ，ARM 处 理 器 的 不 同 版 本 也 有 不 同 的 流水 线 结 构 。 例 如 ， 
ARM7 使 用 3 级 流水 线 ， 而 ARM10 则 是 6 阶段 流水 线 。 


第 一 个 PETN T 要 “ALU See 
mien | ween 指令 译 码 | 该 寄存 器 | 移 位 阶段 饱和 阶段 
第 二 个 乘法 和 第 三 个 乘法 和 

昧 加 阶段 RIM wr 累加 阶段 


图 6-22 ARM 的 流水 线 


图 6-23 描述 了 SPARC T1 的 流水 线 。 它 有 6 个 阶段 。 第 二 段 被 记 作 线程 选择 ， 它 能 从 
最 多 4 个 线程 中 选择 一 个 运行 。 在 这 里 要 说 的 是 ， 通 过 复 用 寄存 器 和 PC, 任何 时 候 处 理 器 
中 都 有 可 能 同时 存在 几 个 线程 ， 这 是 提高 处 理 器 性 能 的 一 种 方法 。 任 一 时 间 只 有 一 个 线程 是 
活跃 的 并 且 正 在 被 执行 。 其 他 线程 处 于 休眠 状态 ， 只 是 以 状态 信息 的 形式 存在 于 寄存 器 中 。 
然而 ， 如 果 发 生 了 线程 切换 ， 那 么 当前 线程 使 用 的 所 有 寄存 器 都 将 被 换 出 ， 新 线程 的 寄存 器 
将 被 换 入 。 当 资源 不 可 用 时 就 进行 线程 切换 (例如 ， 由 于 处 理 融 正 在 等 待 从 存储 融 load 操作 
完成 )， 多 线程 技术 可 以 借 此 提高 性 能 。 多 线程 技术 还 可 以 减弱 延迟 的 影响 。 


第 一 个 
| ar ae | 


从 4 个 线程 中 选择 1 个 执行 
图 6-23 SPARC TI 的 流水 线 
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6.3.1 加 速 比 

可 以 用 加 速 比 (speedup ratio) 来 描述 流水 线 的 性 能 ; 也 就 是 说 ， 带 流水 线 系统 与 不 带 
流水 线 系统 的 速度 之 比 。 如 果 系 统 将 操作 划分 为 n 个 流水 段 ， 那 么 完成 第 一 个 操作 将 花费 n 
个 时 钟 周期 。 此 后 ， 每 个 时 钟 周期 将 完 TE 一 旦 流水 线 被 充满 ， 每 个 时 钟 周期 
都 会 完成 一 个 新 的 操作 。 但 实际 上 ， 由 于 某 些 原因 ， 这 是 无 法 做 到 的 。 其 中 最 重要 的 两 个 原 
因 就 是 : 分 支 对 流水 线 的 影响 ,以 及 数据 依赖 的 影响 (例如 ， 当 一 条 指令 需要 使 用 之 前 一 条 
指令 的 结果 ， 而 那个 结果 还 没有 计算 出 来 并 且 没 被 写 回 )。 本 章 稍 后 会 仔细 人 研究 这 些 问 题 ， 
流水 线 设计 者 的 终极 目标 就 是 每 周期 一 条 指令 的 执行 速率 。 

车 有 i 条 指令 在 该 流水 线 上 执行 ， 那么 需要 花费 i+ (nn 一 1 ) 个 周期 。 如 果 不 使 用 流水 
线 ， 系 统 将 需要 使 用 ni 个 周期 。 因 此 加 速 比 为 
n-i n 

i+(n-—1) +22! 








在 极限 情况 下 ， 当 i= 1 时 5 的 值 为 1， 而 当 i= x 时 加 速 比 为 x。 在 对 流水 线 进行 分 析 
之 前 ， 我 们 回 到 电路 和 和 触发 器 ， 从 原理 上 介绍 流水 线 是 如 何 实现 的 。 
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6.3.2 ”实现 流水 线 


在 了 解 了 流水 线 的 概念 之 后 ， 现 在 我 们 来 介绍 如 何 将 流水 线 集成 在 处 理 器 中 。 我 们 将 从 
程序 计数 器 开始 ,一步 一 步 地 搭建 处 理 器 。 除 了 增加 流水 段 以 外 ,这 台 计 算 机 的 结构 与 前 面 
的 直通 计算 机 相似 。 从 本 质 上 讲 ， 直 通 处 理 器 与 流水 线 处 理 右 最 重要 的 差别 就 是 在 流水 线 某 
些 阶段 之 间 增 加 了 触发 右 或 寄存 髓 。 

图 6-24 描述 了 一 个 流水 段 。 第 i 段 以 一 个 D 触发 器 开始 。 为 使 系统 能 够 正确 工作 ， 这 
个 触发 带 必须 是 一 个 能 够 隔离 其 输入 和 输出 的 主 从 设备 。 假 设 D 触发 天 的 输出 O 在 时 钟 上 
升 沿 变化 


第 i 段 第 计 ] 段 





we FF | Ff Lf 触发 器 是 主 — 从 式 设 
备 。 触 发 器 的 输出 在 每 


个 时 钟 上 升 沿 变化 
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图 6-24 流水 段 


第 : 段 的 输出 会 被 送 往 一 个 电路 ( 即 逻辑 网 络 、 进 程 或 者 某 个 子 系统 )， 它 将 处 理 触发 器 
i 获得 的 数据 。 这 个 电路 可 能 是 一 个 加 法 器 、 一 个 乘法 器 或 者 甚至 是 一 块 按照 地 址 查找 数据 
的 内 存 。 不 过 ， 该 电路 的 输出 必须 在 下 一 个 时 钟 脉冲 到 来 之 前 有 效 ， 这 一 点 十 分 重要 。 在 下 
一 个 时 钟 脉 冲 ， 和 触发 器 计 1 将 获得 电路 的 输出 。 经 过 一 段 时 间 7， 流 水 线 触发 器 获得 时 钟 信 
号 并 且 第 二 1 个 流水 段 的 触发 器 将 收 到 电路 的 输出 。 触 发 器 it1 获得 电路 的 输出 ， 并 在 下 一 
个 流水 段 使 用 它 时 一 直 保持 该 值 。 

图 6-24 流水 段 下 方 的 时 序 图 描述 了 它 的 操作 。 触 发 器 的 输出 在 时 钟 上 升 沿 发 生 改 变 ， 
并 在 接 下 来 几 个 连续 的 时 钟 脉冲 中 保持 不 变 。 

当 描述 一 个 流水 线 计 算 机 的 操作 时 ， 程 序 计数 器 是 一 个 很 方便 的 起 点 。 图 6-25 描述 了 
我 们 正在 开发 的 假想 处 理 器 的 程序 计数 器 和 程序 访 存 阶 段 。 在 每 个 时 钟 脉冲 处 ， 程 序 计数 器 
的 内 容 每 次 加 4， 因 为 处 理 器 指令 长 为 32 位， 而 存储 器 按 字 节 编 址 。 当 PC 的 输出 稳定 时 ， 
对 应 的 指令 将 被 从 指令 存储 器 中 读 出 并 在 下 一 个 时 钟 脉冲 进入 指令 触发 器 。 时 序 图 (timing 
diagram) 表明 ， 在 时 钟 周期 ;程序 计数 器 指向 当前 指令 ， 在 下 一 个 时 钟 周 期 ， 这 条 指令 对 应 
的 二 进 制 串 会 被 锁 存 起 来 并 可 进行 译 码 。 

在 图 6-25 中 ， 程 序 计数 器 和 指令 寄存 器 是 两 个 带 锁 存 的 段 。 假 设 存 储 器 是 没有 时 钟 信 
号 的 。 存 储 器 接收 到 地 址 并 将 数据 保存 在 指定 的 位 置 ( 即 将 PC 翻译 为 操作 码 )。 

正如 我 们 所 看 到 的 ， 处 理 器 中 带 有 一 个 寄存 器 文件 ， 它 是 一 个 用 来 保存 临时 变量 的 通用 
寄存 器 的 集合 ， 从 本 质 上 来 说 是 一 个 小 容量 的 存储 器 。 寄 存 器 文件 是 处 理 器 中 一 个 非常 重要 
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的 组 件 ， 因 为 它 所 完成 的 工作 多 于 处 理 需 的 其 他 部 分 。 寄 存 器 文件 在 每 个 周期 必须 完成 3 个 动 
作 。 它 必须 提供 两 个 操作 数 供 当 
前 操作 使 用 ， 而 且 它 将 先前 一 个 
操作 的 结果 保存 起 来 。 就 像 我 们 
已 经 看 到 的 ， 这 样 一 个 存储 器 有 
6 个 端口 ; 两 个 源 操 作 数 地 址 输 
入 和 两 个 源 操作 数 输出 ， 目 的 操 
作 数 地 址 和 目的 操作 数 输入 ; 它 和 
也 被 称 作 带 有 两 个 读 端 口 和 两 个 
写 端 口 的 存储 器 。 

1. 从 PC 到 操作 数 

下 面 来 看 一 下 流水 线 中 从 
PC 到 源 操作 数 锁 存 器 的 最 前 面 
几 个 流水 段 。 假 设 当前 操作 是 寄 
存 器 -寄存 器 类 型 。 在 图 6-26 
中 ， 我 们 已 经 通过 加 寄存 器 文件 和 它 的 输出 触发 器 对 计算 机 进行 扩展 。 符 号 OA, 代表 操作 
数 地 址 1，OV1 代表 操作 数值 1。 假 设 程序 计数 器 的 初始 值 为 已 图 6-26 表明 ， 在 第 三 个 周 
期 程序 计数 器 含有 指令 i+2 的 地 址 ， 并 且 源 操作 数 触发 器 中 保存 了 指令 i 所 用 的 操作 数 。 由 
于 流水 线 的 作用 ， 指 令 寄存 器 在 此 时 指向 下 一 条 指令 所 需 的 操作 数 ， 之 后 程序 计数 器 将 开始 
读 指 令 。 


时 钟 








将 操作 码 
送 往 译 码 器 
存储 器 没有 
时 钟 信号 
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图 6-25 ,流水线 处 理 器 读 指 令 的 过 程 


时 钟 









操作 数 S; 





当前 指令 所 用 
ou Operand 的 两 个 操作 数 
(操作 数 地址 ) (操作 数值 ) 
时 钟 

H PC 查找 指令 i 





PC ouput 我 们 在 这 里 已 经 知道 将 要 访问 哪 


些 寄存 器 ， 即 寄存 器 S, 和 5， 





现在 已 经 获得 了 要 进行 加 
法 的 寄存 器 S 5S, 的 值 





寄存 带 文件 中 





执行 单元 所 用 读 出 操作 数 S, AS. 
的 操作 数 $ 
TEXANA 3 

源 操作 数 均 已 可 用 S 


图 6-26 读 操作 数 的 值 
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图 6-27 扩展 了 流水 线 ， 增 加 了 一 个 流水 段 ， 带 有 能 对 两 个 源 操作 数 进行 操作 的 ALU 和 
保存 指令 结果 (BI ALU 的 输出 ) 的 结果 触发 器 。 当 然 ， 寄 存 器 - 寄存 器 型 指令 的 结果 必须 被 
写 回 寄存 器 文件 。 






送 往 寄 存 器 
文件 的 结果 


时 钟 | | | | | 


用 PC 寻 址 指令 i 





na 这 一 阶段 后 ， 从 指令 寄 


这 一 阶段 后 ， 操 作 数 的 值 可 用 












用 IR; 中 的 
地 址 寻 址 指令 3 


指令 结果 可 用 ， 并 
可 被 写 人 目的 地 址 处 


操作 数 锁 存 器 中 
的 源 操作 数 





ALU 的 结果 (将 被 
写 回 寄存 器 文件 ) 


ADD r0,r1,r2 
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P Se ae r0 的 什 
图 6-27 完成 指令 (寄存 器 一 寄存 器 型 ) 


读者 也 许 会 认为 ， 要 将 结果 (目的 操作 数 ) 保存 在 寄存 器 文件 中 ， 必 须要 做 的 全 部 事情 
就 是 将 结果 送 入 寄存 器 文件 ， 并 将 其 保存 在 指令 中 目的 地 址 所 指 的 位 置 。 不 幸 的 是 ， 我 们 遗 
漏 了 一 些 重要 的 事情 。 在 ALU 输出 有 效 这 段 时 间 内 ， 指 令 寄存 器 中 的 目的 操作 数 已 经 不 是 
保存 这 个 结果 的 目的 操作 数 了 。 受 到 流水 线 的 影响 ， 当 前 指令 寄存 器 中 目的 地 址 对 应 于 结果 
刚 被 计算 出 来 的 这 条 指令 之 后 的 第 二 条 指令 ; 也 就 是 说 ， 由 于 操作 数 地 址 路 径 与 操作 数值 路 
径 的 不 同 延迟 ， 目 的 操作 数 与 目的 地 址 是 不 匹配 的 。 

图 6-28 Ran T T, 时 刻 流 水 线 的 情形 ， 程 序 计 数 器 中 是 指令 43 的 地 址 ， 指 令 i 的 结果 
将 被 写 人 结果 寄存 器 。 此 时 ， 指 令 i+2 的 操作 数 的 地 址 在 指令 寄存 器 中 。 但 是 结果 写 回 需要 
指令 i 的 目的 操作 数 地 址 。 解 决 该 问题 的 唯一 方法 是 在 指令 寄存 器 目的 地 址 与 寄存 器 文件 之 
间 的 通路 上 增加 一 段 延 迟 。 

图 6-29 进一步 扩展 了 电路 ， 增 加 了 一 些 触 发 器 ， 它 们 为 保证 目的 操作 数 地 址 和 目的 操 
作 数 同时 抵达 寄存 器 文件 提供 了 必要 的 延迟 。 我 们 在 指令 寄存 融 的 目的 地 址 与 寄存 器 文件 的 
目的 操作 数 地 址 间 的 通路 上 增加 了 两 个 触发 器 〈 即 寄存 器 ) 。 

还 有 一 个 不 得 不 解决 的 时 序 问题 。 我 们 并 不 希望 操作 码 在 数据 之 前 抵达 ALU， 因 此 不 
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得 不 延迟 操作 码 的 传输 以 保证 指令 i 与 它 的 操作 数 在 同一 时 间 到 达 ALU。 图 6-29, IR 与 
ALU 之 间 的 操作 码 通路 中 增加 了 一 拍 延 迟 。 图 6-30 给 出 了 图 6-29 的 时 序 图 。 如 图 所 示 ， 操 
作 码 与 操作 数 同 时 抵达 ALU， 目 的 地 址 与 结果 同时 对 寄存 器 文件 可 用 。 


Ty T, T, T; 











时 钟 





从 存储 器 中 读 出 指令 
PCoupur ] 


IR 中 为 指令 i+2 的 目的 操作 数 D,a 














Pa cee ca 、、 
Pe ME dit ae ee cs ERAN, BARE 在 第 四 个 槽 ， 执 行 单元 
器 生成 地 址 ， 存 储 器 取 作 数 地 址 均 可 用 。 寄 存 器 数 的 值 可 用 ， 它 们 将 被 的 结果 被 写 回 寄 存 器 文件 
出 该 地 址 处 的 操作 码 文件 将 读 出 源 操作 数 。 ”执行 单元 使 用 


图 6-28 4 个 时 钟 脉冲 后 流水 线 的 状态 


© Cengage Learning 2014 





操作 数 和 操作 
码 同时 抵达 ALU 


目标 地 址 路 径 中 2 个 周期 的 延 
迟 是 对 结果 路 径 延 迟 的 补偿 


图 6-29 流水线 中 的 补偿 延迟 
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2. 实现 分 支 和 立即 数 操作 

图 6-31 描述 了 对 流水 线 结果 的 进一步 修改 ， 图 中 添加 了 两 个 新 的 功能 : 第 一 个 是 在 指 
令 寄存 器 中 立即 数字 段 到 ALU 之 间 的 通路 上 ， 这 是 实现 app r1, r2, #123 W LDR r1, [r2, 
#20] 等 的 立即 数 操作 所 需 的 。 这 条 数据 通路 需要 一 个 延迟 单元 ， 因 为 从 寄存 器 文件 到 ALU 
的 数据 操作 数 通路 会 带 来 一 个 周期 的 延迟 。 
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IR 中 的 指令 i 








TR output i=] 






TE 


i+2 | its 
ADD r0,r1,r2 P PRETE 


0, z1, r3 

目的 操作 数 地 址 
(第 一 个 延迟 周期 i-l i i+l | i2 

/ 目的 操作 数 地 址 

目的 操作 数 地 址 
(第 二 个 延迟 周期 i : i+] 
ADD pri,r2 
ALU 所 用 的 源 操作 数 i 


i-] i i+] 


ADD r0 







































i+2 





将 结果 写 回 寄 存 器 文件 


i-] i i+] 


结果 (被 锁 存 
的 ALU 输出 ) 
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ADD Br1, r2 


图 6-30 FA 6-29 的 时 序 图 













立即 数 waa 符号 扩展 单元 TH 
寄存 器 文件 CLK 


miat 1 E oe 
— : 
mary 2 S: 地 址 


目的 操作 数 


操作 码 
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分 支 / 跳 转 地 址 通路 
图 6-31 通过 增加 立即 数 通路 和 条 件 分 支 功 能 扩展 流水 线 体 系 结构 

我 们 还 在 PC 与 ALU 之 间 增 加 了 一 条 通路 以 计算 相对 分 支 地 址 ， 并 在 ALU 输出 与 PC 
之 间 增 加 了 一 条 通路 以 完成 条 件 分 支 。 

为 了 简化 ， 图 6-31 中 并 没有 包含 数据 存储 器 。 数 据 存储 器 从 ALU 获得 操作 数 地 址 ， 因 
为 地 址 是 ALU 计算 出 来 的 。 如 图 6-32 所 示 ， 可 以 将 从 存储 器 中 读 出 的 数据 保存 到 寄存 器 文 
件 中 ， 或 将 寄存 器 文件 中 的 数据 保存 在 存储 器 里 。 

图 6-33 给 出 了 store 操作 的 时 序 图 。 如 图 所 示 ， 寄 存 器 文件 与 数据 存储 器 之 间 的 数据 通 
路 上 的 第 二 个 触发 器 是 必需 的 ， 以 确保 被 写 人 存储 器 的 数据 与 其 地 址 同时 有 效 ， 这 个 地 址 已 
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经 被 延迟 了 一 段 时 间 ， 因 为 ALU 计算 出 该 地 址 需要 一 定 的 时 间 。 





寄 在 器 文件 








分 支 / 跳 转 地 址 通路 
图 6-32 ”通过 增加 数据 存储 器 扩展 流水 线 体系 结构 
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PC ecu 142 | 3 H4 
Rag tl I i2 | i+3 
操作 码 与 操作 数 同时 可 用 
锁 存 的 操作 码 | | i-l i i+] i+2 
3 的 操作 数 地址 

目的 操作 数 地 址 上 

(第 二 个 延迟 周期 ) ee 
ALU 所 用 的 源 操 作 数 
源 操作 数 
oe 要 被 写 回 存储 器 的 操作 数 的 也 址 
被 锁 存 的 j 3 
ALU 输出 i+] i 
被 锁 存 的 要 写 回 
存储 器 的 操作 数 g 
将 地 址 和 操作 数 一 起 写 回 5 


图 6-33 存储 器 store 操作 的 时 序 图 


图 6-34 描述 load 操作 的 时 序 图 。 在 这 里 我 们 遇 到 了 一 个 问题 : 由 于 数据 通路 中 读 操 作 
数 带 了 额外 的 延迟 ， 该 操作 并 不 能 在 4 个 时 钟 周期 内 完成 。 

这 个 问题 可 以 通过 向 流水 线 中 增加 一 个 暂停 周期 (stall cycle) 来 解决 ， 此 时 所 有 流水 段 
都 被 冻结 ， 为 数据 存储 器 读 出 数据 提供 了 时 间 。 当 ALU 已 经 计算 出 操作 数 在 存储 器 中 的 有 
效 地 址 时 ， 将 用 该 地 址 访问 数据 存储 器 以 获得 存储 器 中 的 操作 数 。 在 下 一 个 时 钟 周 期 ， 这 个 
地 址 将 被 锁 存 到 寄存 吉文 件 中 。 然 而， 在 第 二 个 时 钟 周 期 内 ， 其 他 流水 段 不 能 使 用 这 个 时 钟 
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信号 ， 这 会 导致 一 个 时 钟 周期 的 丢失 ( 即 一 次 暂停 )。 也 就 是 说 ， 由 于 存储 器 载 人 指令 需要 
额外 的 操作 ， 这 使 它 不 能 与 正在 执行 的 操作 并 行进 行 ， 处 理 器 不 得 不 在 存储 器 取 数 时 暂停 。 
这 反映 出 当前 处 理 希 所 面临 的 最 重要 制约 之 一 。 


时 钟 | | | | | | | | 






































Pai i+] | i+2 $ i+3 STALL it4 
IR 中 的 指令 i 
[Ru 









目的 操作 数 地 址 





目的 操作 数 地 址 
(第 二 个 延迟 周期 


源 操作 数 H [ m 
| 


被 锁 存 的 | 
ALU 输出 


il 
ALU 所 用 的 源 操作 数 


i+l 















要 被 写 回 存储 器 的 操作 数 的 地 址 
存储 器 地 址 (S4, L) 
来 自 触发 器 S, 的 数据 


i-l 











被 锁 存 的 要 写 回 
存储 器 的 操作 数 





i+] 


将 地 址 和 操作 数 一 起 写 回 
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图 6-34 ”修改 load 操作 的 时 序 


现在 我 们 已 经 解决 了 流水 线 处 理 器 中 的 延迟 问题 。 可 是 ， 这 只 不 过 是 刚 开始 处 理 这 些 问 
题 。 下 一 节 将 分 析 流 水 线 与 正在 执行 的 代码 之 间 的 关系 。 


6.3.3 ”冒险 


我 们 已 经 知道 ， 流 水 线 通 过 将 指令 重 释 在 一 起 执行 极 大 地 提高 了 处 理 器 性 能 。 然 而 ,在 
没有 解决 会 降低 流水 线 知 吐 率 的 、 通常 被 称 为 冒险 (hazard) 的 问题 之 前 ， 是 不 可 能 实现 流 
水 线 的 。 本 节 将 解释 为 什么 流水 线 处 理 器 的 各 个 流水 段 无 法 一 直 处 于 活跃 状态 ， 以 及 为 什么 
不 得 不 向 流水 线 中 引入 气泡 (bubble) 和 暂停 (stall)。 

数据 冒险 (data hazard) 是 指 一 条 指令 的 处 理 依赖 它 之 前 且 依 然 在 流水 线 中 的 一 条 指令 
所 产生 的 数据 的 情形 。 控 制 冒 险 ( control hazard) 发 生 在 分 支 转 移 成 功 并 且 流 水 线 中 所 有 已 
经 部 分 被 执行 的 指令 都 不 得 不 被 丢弃 的 时 候 。 我 们 先 来 看 看 控制 冒险 。 本 章 后 面部 分 将 讨论 
如 何 降 低 控制 冒险 的 影响 ， 这 是 降低 流水 线 处 理 器 效率 最 主要 的 原因 。 


分 支 开 销 

| 尽管 本 章 后 面 将 介绍 更 多 分 支 的 影响 ， 但 是 我 们 应 该 在 这 里 讨论 一 些 分 支 对 流水 线 
| 性 能 的 影响 。 

| 假设 程序 中 20% 的 指令 是 分 支 ，80% 的 分 支 会 转移 成 功 ， 并 且 一 个 转移 成 功 的 分 支 
| 将 带 来 4 个 时 钟 周期 的 额外 开销 。 每 条 指令 的 额外 时 钟 周期 数 为 20% x 80% X 4 = 0.64 ; 
| 也 就 是 说 ， 没 有 分 支 时 CPI 为 1.00， 有 分 支 时 CPI 为 1.64。 
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另外 一 种 冒险 是 结构 冒险 ( structure hazard)， 它 发 生 在 当 两 个 事件 同时 请 求 相 同 的 资源 
时 。 如 果 两 条 指令 试图 同时 访问 存储 器 且 存 储 咒 不 支持 同时 访问 时 ， 存 储 器 会 产生 结构 冒 
险 。 本 章 将 不 讨论 这 种 形式 的 冒险 ， 因 为 这 种 形式 在 同时 执行 多 条 指令 (超标 量 处 理 器 ) 的 
体系 结构 中 更 为 重要 。 

本 节 大 部 分 内 容 关注 分 支 操作 造成 的 控制 冒险 ， 因 为 克服 这 种 冒险 对 于 流水 线 的 高 效 操 
作 至 关 重 要 。 

流水 线 是 一 个 按照 规律 操作 的 有 序 结构 。 请 考虑 图 6-35， 它 描述 了 一 令 在 流水 线 处 
理 器 上 执行 的 情形 。 为 使 读者 更 容易 理解 该 图 ， 本 节 采 用 短 流水 线 讨论 冒险 。 同 样 的 原理 可 
应 用 于 任意 长 度 的 流水 线 。 


IF = ag 
.。 四 阶段 流水 线 OF = 读 操作 数 
mn | Be Se | EAT 


S= 保 存 结果 








分 支 指令 的 执行 段 结束 后 
才能 开始 从 目标 地 址 处 取 指令 
这 两 条 指令 
Te s |< 不 会 被 执行 


分 支 目标 地 址 
OE 


nit [efor Te [s | 
图 6-35 分 支 指令 引起 的 流水 线 气泡 


当 处 理 器 遇 到 一 个 转移 成 功 的 分 支 指令 时 ， 它 必须 将 一 个 新 值 重新 载 人 程序 计数 器 ; 即 
分 支 目 标 地 址 。 将 一 个 不 连续 的 地 址 重新 加 载 到 程序 计数 器 中 意味 着 流水 线 中 完成 的 所 有 
有 用 的 工作 必须 作废 ， 因 为 紧 接 在 分 支 之 后 的 指令 将 不 会 执行 。 请 注意 ， 计 算 目 标 地 址 并 不 
是 一 项 不 重要 的 工作 ， 因 为 绝 大 多 数 微 处 理 器 都 使 用 了 相对 PC 寻 址 。 一 个 典型 的 分 支 ， 比 
如 peg xyz, 没有 使 用 绝对 (真实 的 ) 地 址 ， 而 是 使 用 一 个 以 相对 程序 寄存 器 值 的 字 节 数 表 
示 的 相对 目标 地 址 。 因 此 ， 目 标 地 址 必须 通过 将 分 支 指令 中 的 偏 移 量 与 程序 计数 器 的 值 相 
加 计算 出 来 。 显 然 ， 这 会 花费 一 些 时间 而 且 新 的 目的 地 址 可 能 直到 指令 周期 的 末尾 才 是 可 
用 的 。 

分 支 指令 并 不 是 唯一 的 会 在 流水 线 系统 中 引起 问题 的 指令 。 子 程序 调用 、 返 回 、 自 陷 和 
异常 等 指令 都 会 改变 指令 执行 的 顺序 ， 如 果 分 支 延 迟 完 成 还 有 可 能 引入 气泡 。 

当 流 水 线 中 的 数据 作废 了 或 者 流水 线 由 于 引入 空闲 状态 而 暂停 时 ， 我 们 就 会 说 产生 了 一 
个 气泡 ( bubble)。 另 一 个 描述 气泡 的 术语 是 流水 线 暂停 ( pipeline stall)。 流 水 线 越 长 ， 遇 到 
分 支 时 要 作废 的 指令 也 就 越 多 。 

1. 延迟 分 支 

由 于 程序 流 控制 指令 出 现 频率 较 高 (一 般 占 程序 中 指令 的 5% ~ 30%)， 任 何 使 用 流水 
线 的 真实 处 理 器 都 必须 采取 一 定 措施 来 解决 这 类 指令 所 引起 的 气泡 问题 。Berkeley RISC 机 
器 通过 作废 紧 接 在 分 支 之 后 的 指令 以 减少 气泡 的 影响 。 也 就 是 说 ， 分 支 之 后 的 指令 总 会 被 执 
行 。 请 考虑 下 面 的 指令 序列 在 一 台 实 现 了 延迟 分 支 的 机 器 上 的 执行 过 程 。 
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ADD R3,R2,R1 ;[R3] <— [R2] + [R1] 

B N [PC] — [N] ; 跳 转 到 地 址 二 处 

ADD  R5,R4,R6 :[R5] 二 [R4] + [R6] ; ERM PAA 

ADD R7,R8,R9 ; 不 会 执行 ， 因 为 分 支 转移 成 功 

处 理 器 计算 R3 = R2 + R1 后 遇 到 分 支 。 由 于 指令 app R5，R4，R6 紧 接 在 分 支 之 后 ， 因 
此 也 会 执行 该 指令 。RISC 文献 中 通常 将 这 种 机 制 称 作 延 迟 跳 转 (delayed jump) 或 分 支 执行 
(branch-and-execute) 技术 。9 

不 幸 的 是 ， 不 可 能 总 是 像 这 样 在 分 支 之 后 放 和 一 条 有 用 指令 。 这 时 ， 编 译 需 必须 在 分 支 
之 后 插入 一 个 空 操 作 (Nop) 指令 ， 这 将 不 可 避免 地 带 来 流水 线 气 泡 。 

图 6-36 描述 了 Berkeley RISC I 处理 器 是 如 何在 它 的 三 阶段 流水 线 上 完成 延迟 分 支 的 。 
图 6-36 中 所 描述 的 分 支 是 一 个 计算 分 支 ， 它 的 目的 地 址 将 在 指令 周期 的 执行 阶段 被 计算 出 来 。 
检测 到 这 是 条 BRA N 指令 ， 
从 地 址 N 处 取 下 一 条 指令 






这 条 指令 总 会 被 执行 ， 
即使 它 紧 接 在 分 支 之 后 


© Cengage Learning 2014 


图 6-36 RISC I 的 延迟 跳 转 机 制 


RÆ MIPS 和 SPARC 实现 了 延迟 跳 转 ， 但 并 不 是 所 有 RISC 处 理 器 能 够 支持 这 种 技术 
(例如 ARM)。 通 常 ， 跳 转 延 迟 机 制 在 今天 并 不 流行 。 O00 执行 会 使 延迟 槽 的 设计 更 加 复杂 ， 
许多 人 觉得 在 微 体系 结构 中 支持 延迟 槽 并 不 值得 。 

有 人 也 许 会 争辩 说 延迟 槽 已 经 可 以 在 微 体系 结构 层次 缓解 这 一 问题 ， 但 它 对 指令 系统 层 
的 程序 员 来 说 是 可 见 的 (因为 程序 员 必 须 了 解 分 支 延 迟 槽 的 特性 ， 并 且 要 么 必须 用 一 条 有 效 
指令 要 么 必须 用 Nop 来 填充 分 支 延 迟 模 )。 分 支 延 迟 模 的 使 用 也 增加 了 蜡 常 处 理 方案 的 复杂 
度 。 在 回 到 分 支 开 销 的 影响 之 前 ， 接 下 来 我 们 将 看 看 由 于 指令 流 之 间 的 相互 依赖 所 导致 的 数 
据 冒 险 。 

2. 数据 冒险 

在 当前 指令 的 输出 依赖 于 前 面 一 条 还 未 执行 完 的 指令 的 结果 时 会 引起 数据 相关 ( data 
dependency)。 数 据 冒 险 是 由 于 要 保持 指令 执行 顺序 的 需要 而 产生 的 。 请 考虑 下 面 的 代码 片段 。 


ADD R2,R1,RO [R2] —[R1] + [RO] 
SUB R4,R5,R6 [R4] - [R5] — [R6] 
AND R9,R5,R6 [R9] —[RS5] - [R6] 


MAF RARR, ORITUR RE. Rill, ARRIA sus 
R4, R5, R2, WARS RA, AY R2 是 这 条 指令 的 源 操 作 数 并 且 是 前 一 条 指令 的 目的 操 
作 数 。 按 照 引起 数据 冒险 的 操作 顺序 ， 数 据 冒 险 可 被 分 成 3 类 ， 分 别 是 : 
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RAW 读 后 写 (也 叫 真 数 据 相 关 ) 
WAW 写 后 写 (也 叫 输出 相关 ) 
WAR 写 后 读 (也 叫 反 数 据 相 关 ) 


RAW 是 最 重要 的 冒险 形式 ? ， 此 时 写 数据 之 后 会 读 该 数据 。 请 考虑 下 面 的 RAW 冒险 实 
例 ， 程 序 员 和 希望 计算 : 


X = (A + B)AND(A + B - C) 


假设 变量 A、B、C、X 和 两 个 临时 值 T1 与 T2， 都 保存 在 寄存 器 中 8? ， 则 可 以 将 其 写 为 
下 面 的 汇编 语句 

ADD Tl,A,B [Tl] 二 [Al +[B] pti 的 值 在 4 个 周期 后 才 可 用 

SUB T2,T1,C ;[T2] <— [T1] 一 [C] ;这 条 指令 使 用 的 Tl 还 没有 被 计算 出 来 

AND x,T1,T2 [X] < [T1]. [TJ ; 这 条 指令 使 用 的 T2 还 没有 被 计算 出 来 

这 段 代码 中 ， 我 们 将 引起 RAW 冒险 的 操作 数 加 上 第 二 条 指令 在 第 一 条 指令 将 
TI 写 人 存储 器 之 前 使 用 T1。 这 个 例子 中 有 两 处 RAW 冒险 ， 因 为 在 第 二 条 和 第 三 条 指令 中 ， 
T2 在 step 图 6-37 用 一 Perens 代码 的 执行 。 理 想 情 况 
下 ， 这 个 代码 应 在 6 个 时 钟 周期 内 执行 完毕 (第 一 条 指令 用 4 个 时 钟 周期 ， 余 下 两 条 指令 
WAL l C. 然而 ， 图 6-37 中 却 需 要 10 个 周期 。 


外 到 上 红尘 TI awe ts ARR OM 


IF E S 


ARE RES fi yi 
Add'T1,4.8 GetAB AddAB Tis4+B a 


IF OF E S 
气泡 
Sub 12;71,¢ GetT1,C SubT1,C T2=T1-C 
IF OF E $ 
asnowwi AND x 1.cC SetT1,T2 AND T1,T2 X=T1. T2 


Th. fT) 450,49 
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图 6-37 RAW 数据 相关 的 影响 


37 中 ， 指 令 i+1, sup m2,7T1,c， 在 前 一 条 指令 的 读 操作 数 阶段 开始 执行 。 但 是 ， 
指令 i+1 无 法 在 它 自 己 的 读 操作 数 阶段 继续 执行 ， 因 为 它 所 需要 的 操作 数 尚 未 被 写 回 寄存 器 
文件 ， Range 也 就 是 说 ， 我 们 遇 到 了 RAW 冒险 ， 在 指令 i 的 写 结果 
完成 之 前 指令 i+] 无 法 读 出 操作 数 。 

因此 ， 当 指令 H 等 待 它 的 数据 时 必须 向 流水 线 中 插入 气泡 。 同 样 ， 接 下 来 的 AND 操 
作 也 会 引起 RAW 冒险 ， 因 为 它 也 需要 使 用 流水 线 中 前 一 条 指令 的 结果 。 


| RAW 冒险 实例 
因为 这 是 一 个 非常 重要 的 概念 ， 下 面 再 给 出 一 个 例子 。 请 考虑 下 面 的 代码 ， 指 出 其 
中 的 RAW 冒险 ， 假设 流水 线 有 4 个 阶段 (IF, OF, OE, OS), 


Nah ARMA RAE RE EE TE EE TEE I AT met ean 


O RAW 冒险 会 降低 非 超标 量 流 水 线 处 理 器 的 性 能 。WAW 和 WAR 会 降低 流水 线 的 性 能 ， 除 非 实现 了 乱 序 执行 ， 
O 之 所 以 使 用 变量 名 而 不 是 寄存 器 ， 是 为 了 使 代码 更 容易 理解 。 有 些 汇编 器 可 以 像 变 量 一 样 重 新 命名 寄存 闫 以 
提高 代码 的 可 读 性 。 
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ADD) r1, 52.73 
ADD r4,r2,1r3 
ADD r5,r2,r4 
,r3,r4 
ADD r7,r2,r1 


ADD r8,r8,xr3 





ON Uh i Om E a 
o 
H 
n 


ADD r9,r7,r1 
ahat J] dd | ee 


1. ADD r1,r2,r3 IF OF OE OS 
2. ADD r4,r2,r3 If OF OE OS 
3. ADD r5,r2,r4 IF $ s OF OE OS 
4. ADD r6,r3,r4 IF OF OE OS 
| 5. ADD were re IF OF UE OS 
6. ADD r8,r8,r3 IE , OF OE os 
7. ADD £9, rl rI IF S5 OF OE OS 


指令 3 等 待 指令 2 的 结果 r4 时 不 得 不 添加 两 个 暂停 。 然 而 ， 指 令 4 却 不 必 等 待 ， 虽 
| 然 它 也 会 使 用 rT4， 因 为 f4 的 值 已 经 被 保存 了 起 来 。 指 令 7 要 使 用 指令 5 生成 的 rT7。 不 
| 过 ， 由 于 中 间隔 了 一 条 指令 ， 因 此 只 会 引入 一 个 暂停 。 


写 后 读 (WAR) 冒险 与 读 后 写 (RAW) 冒险 有 非常 明显 的 不 同 ; 存在 读 后 写 骨 险 的 指令 
对 的 变量 之 间 没 有 语法 上 的 依赖 。 请 考虑 下 面 的 代码 


ADD R1,R2,R3 
SUB R2,R4,R5 


在 这 个 例子 中 ， 第 一 条 指令 从 寄 
存 器 文件 中 读 出 R2 和 R3 (冒险 的 读 . 指令 ; if 
部 分 会 在 读 操作 数 R2 时 发 生 )， 生 成 读 操作 数 
Ho i+] 写 


新 的 R1 值 并 将 其 写 回 寄存 器 文件 。 
接 下 来 的 减法 指令 将 结果 写 人 R2 FF 
存 器 (冒险 的 写 部 分 ) ;前 一 条 指令 使 图 6-38 WAR 冒险 
用 了 同样 的 寄存 器 。 图 6-38 描述 了 这 样 一 个 写 后 读 ( WAR) 操作 。 这 里 不 会 产生 流水 线 暂 
停 或 者 气泡 ， 因 为 读 不 会 导致 后 面 的 写 操 作 等 待 。 因 此 ， oor ei pr 
当然 ， 若 第 二 条 指令 在 第 一 条 指令 之 前 执行 ， 则 会 产生 冒险 。 

第 3 种 冒险 ， 写 后 写 (WAW)， 也 不 太 可 能 发 生 ， 因 为 它 需 要 下 面 的 操作 序列 


ADD R1,R2,R3 
SUB R1,R4,R5 


这 样 的 序列 是 不 太 可 能 出 现 的 ， 因 为 第 一 条 指令 产生 的 目的 操作 数 R1 会 被 第 二 条 指令 
覆盖 。 乱 序 执行 的 超标 量 处 理 器 会 产生 WAW 冒险 。 

让 我 们 回 到 最 常见 的 冒险 形式 一 一 RAW 真 数据 相 关 。 当 一 条 指令 被 执行 时 ， 目 的 操作 
数 一 离 开 ALU 就 应 该 是 可 用 的 。 然 而 ， 直 到 它 被 写 回 寄存 器 文件 之 后 ， 另 一 条 指令 才能 使 
用 它 。 图 6-39 描述 了 内 部 定向 (internal forwarding) 是 如 何 通过 直接 将 操作 数 传递 给 下 一 条 
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指令 来 减少 数据 相关 的 影响 的 。 这 个 例子 中 在 四 阶段 流水 线 上 执行 下 面 的 代码 。 


.ADD R3,R1,R2 ;[R3] < [R1] + [R2] 
.RDD R6,R4,R5 ;[R6] < [R4] + [R5] 
;[R9] 二 [RH = [R2] 
, ADD R7,R3,R4 ;[R7] + [R3] + [R4] ; 下 一 条 指令 需要 R7 产生 了 RAW 冒险 
.RDD R8,R1,R7 ;[R8] 二 [R1] + [R7] 


ABRWNeE 
- 
w 
w 
fe] 
= 
vel 
to 











ADD R3,R1,R2 





读 操作 数 执行 


ADD R6,R4,R5 











ADD R8,R1,R7 
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需要 内 部 定向 ， 因 为 R7 尚未 保存 


图 6-39 通过 内 部 定向 处 理 数据 相关 


这 个 例子 里 ， 指 令 4 使 用 了 指令 1 的 结果 ( 即 寄存 器 R3 的 内 容 )。 然 而 ， 由 于 指令 2 和 
指令 3 的 存在 ， 指 令 1 有 足够 的 时 间 在 指令 4 读 取 源 操 作 数 之 前 将 它 生 成 的 目的 操作 数 写 回 
寄存 器 文件 。 

指令 4 产生 目的 操作 数 R7， 下 一 条 指令 使 用 R7 作为 源 操 作 数 。 如 果 处 理 器 要 从 寄存 器 
文件 中 读 出 指令 5 所 需 的 源 操作 数 ， 它 将 看 到 R7 的 旧 值 。 通 过 内 部 定向 ， 处 理 器 直接 从 指 
令 4 的 执行 单元 将 R7 送 到 指令 5 的 执行 单元 (ILA 6-40). 

指令 i 指令 计 1 


源 操作 数 1 源 操作 数 2 目的 操作 数 源 操作 数 1 源 操作 数 










2 目的 操作 数 


将 目的 操作 数 定 将 目的 操作 数 定 
向 到 源 操作 数 1 向 到 源 操作 数 2 


图 6-40 ”检测 数据 相关 


图 6-40 描述 了 如 何在 两 条 连续 指令 之 间 检 测 RAW 冒险 。 比 较 器 将 前 一 条 指令 的 目的 
地 址 和 当前 指令 的 两 个 源 地 址 进行 比较 。 假 如 它们 其 中 某 一 对 (或 者 两 对 都 ) 相同 ， 则 直接 
从 执行 单元 而 不 是 寄存 器 文件 中 复制 所 需 的 操作 数 。 图 6-41 描述 了 内 部 转发 是 如 何 实现 的 。 
结果 通过 两 个 多 路 选择 器 直接 从 ALU 的 输出 送 入 两 个 源 操 作 数 锁 存 器 中 。 多 路 选择 器 决定 
了 源 操作 数 的 输入 是 来 自 寄 存 器 文件 还 是 来 自 ALU。 而 在 实践 中 ， 内 部 定向 会 更 加 复杂 ， 
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因为 必须 考虑 中 断 和 异常 处 理 。 
图 6-42 描述 了 图 6-41 中 的 流水 线 在 执行 下 面 代码 的 时 序 图 。 


ADD r1,r2,r3 
ADD r4,r1,¥r5 


在 这 个 例子 里 ， 第 二 条 指令 需要 使 用 第 一 条 指令 生成 的 操作 数 rl。 图 6-42 描述 了 在 周 
HCE) itl 中 ， 如 何 从 源 操作 数 锁 存 器 中 获得 操作 数 5 上 5， 以 及 如 何 从 ALU 的 输出 获得 操作 
数 rl. 






寄存 器 文件 





















操作 码 Š 
© 
图 6-41 内 部 定向 的 实现 
周期 HED i 周期 CH) iH 
mwt Os ec 
ADD r1,r2, r3 ADD r4,r1,r5 
锁 存 器 Sl 
源 操 作 数 
锁 存 器 S, © @ | 
© 
VAL EAS EE l oo 
结果 
aie | H 
PC 于 指令 ADD ri, 
F r2, r3 进行 到 执行 阶 
寄存 器 文件 aS Peep. 结果 已 被 党 向 


和 到 S2 WE AEE PR 





@ Cengage Learning 2014 


图 6-42 ”内 部 定向 的 实现 : 时 序 图 和 数据 流 
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6.4 分支 和 分 支 开 销 


现在 来 更 详细 地 介绍 分 支 ， 计 算出 它 要 花费 多 少 个 时 钟 周期 、 暂停 ， 讨论 a 
分 支 结 果 并 从 分 支 目标 地 址 中 取出 数据 来 降低 分 支 的 影响 
成 功 还 是 不 成 功 之 前 。 

一 条 分 支 指令 ， 在 转移 成 功 时 ， 会 将 一 个 新 的 非 顺序 的 值 载 人 处 理 器 的 程序 计数 器 中 ， 
流水 线 必 须 由 分 支 目 标 地 址 及 其 后 面 的 指令 重新 充满 。 执 行 一 个 引起 非 顺序 控制 流 的 操作 所 
花费 的 时 间 ( 即 额外 的 时 钟 周期 数 ) 被 称 作 phates (branch penalty). 

本 节 将 分 析 那 些 会 改变 控制 流 的 指令 ， 然 后 介绍 如 何 降低 甚至 消除 由 于 分 支 转移 引起 的 
RISC 处 理 器 流水 线 气 泡 ; 也 就 是 说 ， Penn yinnonirhiney 一 些 技术 与 限制 分 支 的 损 
k (damage) 有 关 ， 一 些 技术 则 试图 在 分 支 执行 之 前 预测 它 的 结 

在 讨论 分 支 开销 之 前 ， 先 来 分 析 分 支 自身 的 特点 是 很 有 必要 的 有 几 种 类 型 的 指令 会 改 
变 控 制 流 ; 比如 无 条 件 分 支 、 条 件 分 支 、 子 程序 调用 以 及 子 程序 返回 。 处 理 器 内 部 产生 的 
自 陷 和 异常 以 及 外 部 产生 的 中 断 也 会 改变 控制 流 。 尽 管 从 计算 机 体系 结构 设计 者 的 角度 ， 子 
Pe 但 是 在 计算 机 设计 者 看 来 ， 它们 却 具有 相同 的 特 
点 ， 即 它们 也 会 带 来 分 支 开 销 。 

无 条 件 分 支 (例如 BRa target) 总 会 转移 成 功 ， 并 强制 流水 线 从 目标 地 址 处 继续 执行 。 
无 条 件 分 支 等 价 于 高 级 语言 的 goto 语句 ， 并 且 其 结果 在 编译 时 就 可 以 知道 了 。 





| 编译 时 和 运行 时 
| 编译 时 指 的 是 当 程 序 首次 被 翻译 为 机 器 码 时 的 状态 。 编 译 时 的 某 些 细节 是 已 知 的 ; 
| Hide, ADD ri, r2, #5 等 操作 定义 的 立即 数值 。 
| 运行 时 则 是 指 程序 执行 时 的 状态 。 变 量 的 状态 只 有 在 运行 时 才能 知晓 ， 因 为 它们 的 
| 值 只 有 在 程序 运行 时 才能 生成 。 在 之 前 的 例子 中 ， 由 于 不 知道 [2 的 值 ，rl 的 值 在 编译 时 
| 是 不 可 知 的 。 

无 条 件 分 支 的 结果 在 编译 时 是 可 知 的 。 然 而 ， 条 件 分 支 的 结果 直到 分 支 所 依赖 的 条 
HULA et AR. 








条 件 分 支 的 结 # 果 由 处 理 器 条 件 码 寄存 器 中 的 一 个 或 多 个 标志 位 (或 一 些 等 价 的 机 制 ) ve 
定 ， 因 此 直到 运行 时 才能 知道 。 条 件 分 支 可 能 转移 成 功 ( 即 下 一 条 指令 位 于 目标 地 址 处 )， 
也 可 能 转移 不 成 功 (执行 顺序 的 下 一 条 指令 )。 当 分 支 转移 不 成 功 时 ， 分支 结 果 有 时 候 被 称 
作 是 直线 的 ， 因 为 紧 挨 着 分 支 的 下 一 条 指令 会 被 执行 。 

子 程序 调用 是 一 种 会 保存 返回 地 址 的 无 条 件 分 支 。 同 样 ， 子 程序 返回 是 一 种 从 寄存 器 或 
栈 中 取出 目标 地 址 的 无 条 件 分 支 。 

Grohoski 发 现 有 三 分 之 一 的 分 支 是 无 条 件 分 支 ， 三 分 之 一 是 构成 循环 的 条 件 分 支 ， 三 分 

一 是 其 他 条 件 分 支 。 构 成 循环 的 分 支 是 循环 结构 的 末尾 ， 并 且 对 于 一 个 n 次 迭代 的 循环 来 
说 , 它 的 前 n-1 次 迭代 分 支 会 转移 成 功 。 

DeRosa 和 Levy。 讨 论 了 所 谓 单 指令 和 双 指 令 分 支 的 相对 优势 。 在 双 指 令 分 支 中 ， 一 条 

显 式 的 指令 建立 分 支 (例如 一 条 cmp 或 TEsT 指令 )。 这 些 指令 会 更 新 处 理 器 条 件 码 标志 位 的 


© J. DeRosa and H. M. Levy, “ An evaluation of branch architectures ”, JSCA'87 Proceedings of the Annual 
International Symposium on Computer Architecture ACM, 1987, pp. 10-16. 
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值 ， 这 些 值 决定 了 一 个 条 件 分 支 是 否 会 转移 成 功 。Sima 等 人 ?使 用 术语 结果 状态 来 描述 处 理 
器 条 件 码 所 定义 的 情形 。 许 多 主流 体系 结构 将 这 种 结果 状态 方法 用 于 分 支 (例如 VAX, 68K 
系列 ，Pentium 系列 ，SPARC，PowerPC)。Cragon 将 那些 需要 使 用 一 条 独立 指令 设置 条 件 
码 的 指令 称 为 CC 分 支 ， 而 把 那些 先进 行 测试 然后 根据 测试 结果 进行 分 支 的 指令 叫 作 TB 分 
支 ( 即 测试 和 分 支 )。 下 面 是 一 般 处 理 器 中 一 段 典型 的 分 支 代 码 : 

CMP RO,R1 if RO = R1 

BEQ Same STHEN ..， 

结果 状态 方法 非常 适合 那些 严格 的 顺序 系统 ( 即 测试 数据 、 设 置 条 件 、 测 试 条 件 和 根据 
条 件 进行 分 支 )。 带 有 多 个 执行 单元 的 系统 无 法 支持 一 个 简单 的 “结果 状态 分 支 ” 机 制 ， 因 
为 结果 状态 可 能 依赖 乱 序 执行 。 稍 后 我 们 将 看 到 乱 序 指令 一 -这 里 需要 指出 的 是 某 些 带 有 多 

个 指令 执行 单元 的 处 理 器 能 够 以 不 同 于 指令 在 存储 器 中 存放 位 置 的 顺序 来 执行 指令 。 必 须 借 
助 那些 能 够 确保 分 支 能 够 按照 正确 条 件 执行 的 硬件 才能 解决 这 些 困 难 。 

一 条 单 分 支 指令 (或 直接 检测 指令 ) 用 一 Et ene pe 例如 ，HP Precision 
Architecture ( HP-PA ) 提供 了 一 条 加 并 且 分 支 指令 ， 即 进行 加 法 并 且 根 据 结果 进行 分 支 。 
Digital 的 Alpha 体系 结构 支持 单 分 支 指令 ， 该 指令 显 式 地 测试 寄存 器 的 内 容 ， 比如 ， 

BEQ R4, Loop 

测试 寄存 器 R4 的 内 容 ， 并 且 如 果 R4 为 0， 则 会 跳 转 到 Loop 处 执行 。MIPS 也 提供 了 一 
条 单 分 支 指令 BEQ rl,r2,target， 当 寄存 器 rl Al r2 相等 时 跳 转 到 target 处 执行 。 

HP-PA 还 提供 了 一 条 skip-next 指令 ， 用 来 清空 ( 即 忽略 或 者 无 效 ) 下 一 条 指令 。 若 条 件 
测试 结果 为 真 ， 下 一 条 指令 不 会 被 执行 。 下 面 的 HP-PA 代码 实例 F H Corporaal 提供 ， 其 中 
的 结构 


if ta == bj 





ese - Lk; 


else d d + 10; 


将 被 翻译 为 


sub,<> Yr1,r2,r0 // 比较 a 和 hb， 如果 不 相等 则 下 一 条 指令 无 效 
addi,tr -1,r3,r3 //e:=c-1， 下 一 条 指令 总 是 无 效 
addi 10,r4,r4 //d:=d+10 


执行 这 段 代 码 仅 需 3 个 时 钟 周期 。 我 们 已 经 看 到 ARM 处 理 器 为 所 有 指令 提供 了 条 件 执 
行 机 制 ; 也 就 是 说 ， 如 果 操 作 码 高 4 位 所 定义 的 条 件 不 成 立 ,， 那么 任何 指令 都 可 以 被 转换 为 
空 操作 。 例 如 ， 仅 当 莹 标志 位 为 0 时 指令 appgo r1,r2,r3 才 会 被 执行 。 


6.4.1 分 支 方向 


乍 一 看 ， 你 也 许 会 认为 ， 一 个 条 件 分 支 有 一 半 的 机 会 转移 成 功 。 实 际 却 并 非 如 此 。 当 利 
用 分 支 来 实现 循环 时 ， 在 循环 结束 之 前 分 支 可 能 已 经 转移 了 上 千 次 。Corporaal 归纳 了 几 篇 


> 


© D. Sima, T. Fountain, and P. Kacsuk, Advanced Computer Architectures: A Design Space Approach, Addison-Wesley, 
1997. 

© H.G. Cragon, Memory Systems and Pipelined Processors, Jones and Bartlett, 1996. 

© H. Corporaal, Microprocessor Architectures from VLIW to TTA, Wiley, 1998. 
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处 理 条 件 分 支 的 论文 ， 结 果 表 明 分 支 转移 成 功 的 概率 在 57% 一 99% Zl], 80% 是 一 个 典型 
的 值 ; 也 就 是 说 ，80% 的 分 支 会 转移 成 功 。 由 这 和 句 话 可 以 得 出 一 个 推论 ， 应 该 更 加 重视 转移 
成 功 的 分 支 的 处 理 ， 而 不 是 那些 转移 不 成 功 的 〈 当 然 ， 除 非 那些 转移 不 成 功 的 分 支 会 产生 很 
大 开销 )。 
6.4.2 流水 线 中 分 支 的 影响 
分 支 通过 引入 气泡 或 者 流水 线 暂 停 降低 了 流水 线 体系 结构 的 效率 。 现 在 我 们 来 分 析 流 水 
线 气 泡 的 影响 并 讨论 一 些 能 够 降低 这 些 影响 的 技术 。 表 6-9 归纳 了 分 支 指令 对 一 个 带 有 四 阶 
段 流 水 线 ( 取 指 ， 读 操作 数 ， 执 行 ， 保 存 操作 数 ) 体系 结构 的 影响 。 第 一 列 列 出 了 时 钟 周期 
数 ， 其 他 列 则 列 出 了 流水 线 4 个 阶段 正在 执行 哪 条 指令 。 
在 周期 0， 指 令 i-5 处 于 它 的 最 后 一 个 执行 阶段 ( 即 保存 操作 数 段 )。 与 此 同时 ， 指 令 i-4 
处 于 执行 段 ， ea ttt let AM peo 
假设 指令 i 是 一 条 分 支 指令 ,会 强制 跳 转 到 在 地 址 NN 处 的 指令 执行 。 这 条 分 支 指令 在 第 
ep 
以 起 作用 ， 那 么 分 支 将 在 第 5 个 周期 转移 成 功 。 
在 第 5 个 周期 ， 位 于 分 支 目标 地 址 N 处 的 指令 被 读 和 处理 器 。 然 而 ， 表 6-9 却 显 示 ， 分 
后 的 两 条 指令 i1 和 i+2 都 在 流水 线 中 ， 而 且 会 在 分 支 转移 成 功 时 被 作废 或 被 清空 。 直 到 
第 8 个 周期 流水 线 才 会 会 被 再 一 次 充满 。 流 水 线 没有 充满 的 这 段 时 间 (分 支 之 后 ) 叫 作 流水 线 
的 启动 延迟 ， 这 种 引起 一 个 气泡 的 分 支 影 响 被 称 作 指 令 误 取 开销 。 从 指令 i 开始 到 下 一 条 指 
令 ( 即 目标 地 址 入 处 的 指令 ) 开始 ， 表 6-9 中 分 支 指令 引起 了 两 个 时 钟 周 期 的 延迟 。 
soak RISC 流水 线 上 分 支 指令 的 影响 
时 钟 周期 保存 
i-s ie 
m ted ae tae Oa jra [we J | 
i Jūn |ie |ia | 7 |as | pri |N _ 4 
ai Ji |as |ia j $ |as |a | Wet | 
[ars Jaa Ja Jia | è [ma | wrs | ee | 


在 实践 中 ， 人 例如 我 们 已 经 假设 ， 必 须 检测 分 支 转移 条 件 ， 并 
且 直 到 分 支 指令 执行 段 结 束 才 能 开始 从 分 支 目标 地 址 处 取 指 令 。 如 果 是 一 条 带 有 绝对 地 址 的 
re ee nd 条 指令 的 译 码 段 开始 从 目标 地 址 处 取 指令 。 表 6-10 描述 
了 一 种 提前 完成 分 支 的 方案 的 效果 。 在 这 个 例子 里 ， 仅 损失 了 一 个 时 钟 周期 。 显 然 ， 通 过 在 
尽 可 能 早 的 时 间 段 中 进行 处 理 ， 分 支 指 令 检测 可 被 用 来 减少 分 支 开销 。 处 理 右 在 指令 进入 流 
水 线 并 译 码 之 后 进行 分 支 检测 。 人 们 提出 了 一 些 机 制 ， 能 够 在 分 支 指令 刚 进入 流水 线 时 就 提 
前 警告 。Itanium 处 理 吉 在 指令 中 使 用 一 些 提示 来 帮助 处 理 器 为 分 支 处 理 做 准备 。 

表 6-10 提前 进行 分 支 处 理 的 影响 
a | 一 
a a 
a aC a 


ee 
a aT 
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， 描 述 流水 线 的 另 一 个 视图 
K 6-9 给 出 了 描述 流水 线 的 一 种 方式 。 计 算 机 工程 师 使 用 两 种 视图 ， 三 者 的 区 别 仅 
在 于 坐标 轴 。 下 图 是 表 6-9 的 另外 一 种 描述 。 





周期 
oe alee! 3 4 5 6 7 8 9 指令 i 是 一 条 分 
| i-2 IF OF OE OS kk, 直到 执行 段 才 
i-l IF OF OE OS __ A 能 确定 它 是 否 转移 
i IF OF (OF OS 
i+] IF OF OE OS 
指令 #42 IF OF OE OS — 指令 入 在 第 5 个 周 
N (F<0OF OE OS 期 而 不 是 第 3 个 周期 吕 
Nel IF OF OF OS 开始 执行 ， 这 带 来 了 量 
N+2 IF OF OE 2 个 周期 的 暂停 
N+3 IF OF i 
(2) 


N+4 IF 





6.4.3 分支 开 销 


若 要 减少 分 支 指令 对 流水 线 处 理 器 性 能 的 影响 ， 我 们 需要 描述 系统 性 能 的 度量 或 者 参数 
(指标 )。 由 于 不 清楚 某 个 给 定 程 序 中 有 多 少 分 支 ， 或 每 条 分 支 是 否 会 转移 成 功 ， 我 们 不 得 不 
为 系统 构建 一 个 概率 模型 。 我 们 进行 如 下 假设 : 

. 每 个 非 分 支 指令 都 在 一 个 周期 内 执行 完 。 

给 定 指令 是 分 支 的 概率 为 p,。 

分 支 转移 执行 的 概率 为 p,。 

如 果 分 支 转移 成 功 ， 额 外 开销 为 b 个 周期 。 

如 果 分 支 转移 不 成 功 ， 则 没有 额外 开销 ， 并 且 仅 需 1 个 周期 。 

由 于 一 条 指令 是 分 支 的 概率 与 它 不 是 分 支 的 概率 之 和 必定 为 1， 可 以 认为 一 条 指令 不 是 
分 支 的 概率 为 1 — Po 

在 程序 执行 期 间 完成 一 条 指令 所 需 的 平均 周期 数 为 非 分 支 指令 的 CPI 加 上 转移 成 功 的 分 
支 指令 的 CPI， 再 加 上 转移 不 成 功 的 分 支 指令 的 CPL, OR 

Ta = (1 -P)' 1 +p pi* (1+b)+p(l -= p)" l=1+p.pb 

表达 式 1 + ppb 表明 分 支 指令 的 数量 、 分 支 转移 成 功 的 概率 以 及 每 条 分 支 指令 的 开销 
都 会 影响 分 支 开销 。 若 用 p. (有 效 分 支 概率 ) 替代 pip,， 则 每 条 指令 所 花 的 平均 周期 数 为 1 + 
pbo RISC 处 理 咒 的 效率 EE， 可 被 定义 为 


a A U N = 


© D.J. Lilja, “Reducing the Branch Penalty in Pipelined Processor” , IEEE Computer, July 1988, pp. 46-54. 
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没有 分 支 指令 时 的 平均 CPI 


x 100% 


” 有 分 支 指令 时 的 平均 CPI 


即 


图 6-43 描述 了 两 个 不 同 的 分 支 开 销 ( 即 
b=2 和 b=6 ) 时 ，RISC 处 理 器 的 效率 与 有 效 
分 支 概率 pe 之 间 的 关系 。 该 图 表明 ， 仅 当 分 
ARAR 高 效 的 。 

当 分 支 开 销 b 的 值 较 大 时 ,效率 随 p. 的 增加 
而 急剧 滑落 。 这 种 结果 是 我 们 所 能 预期 的 。 如 
果 流 水 线 很 长 ( 即 b 较 大 )， 即 使 代码 中 一 
偶然 出 现 的 分 支 也 会 带 来 很 多 性 能 损失 。 

对 真实 代码 的 观察 给 出 了 典型 的 p, REL 
范围 ， 在 0.06 ~ 0.2 之 间 。 现 在 我 们 来 讨论 
一 些 能 够 同时 降低 p。 和 4b 并 减少 分 支 开 销 影 
响 的 方法 。 


etal 





, x 100% 
+ p.b 








+ + t 
0 0.2 0.4 0.6 0.8 1 
Pe 


图 6-43 RISC 处 理 融 效率 是 p, 的 函数 


是 如 今 所 有 处 理 器 设计 的 一 个 重要 部 分 。Igor 所 用 的 代码 为 


一 
H 


for (int i = 0; i < max; i++) if (<condition>) sum++; 


条 件 时 间 / (ms) 
(i & 0x80000000) == 322 
(i & OxEfEfEFEE) == 0 276 
ee 760 
(Gi & 46) == 490 


> 


eo 


Wi i 


ALBE 
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本 节 以 分 支 所 需 的 额外 周期 数 (暂停 ) 计算 分 支 开 销 ， 然 后 说 明正 确 预 测 分 支 结 
cesar 为 了 解释 这 个 问题 ， 这 里 使 用 一 个 由 微软 软件 开发 师 Igor 
eee Ce it pe 
| ZATLAR (Hse, EAHGAD, ELAGEAD, HEAASRAATH UR, 
| 等 等 ) 而 设计 的 代码 。 下 表 列 出 的 时 间 结 果 很 有 启发 性 。 不 同 分 支 模式 的 执行 时 间 相 差 
6 倍 。 这 些 结果 表明 为 何 分 支 的 影响 是 如 此 重要 以 及 为 什么 


他 在 计算 机 上 运行 了 一 段 为 了 生成 


(我 们 将 很 快 看 到 ) 分 支 预 测 


上 表 表 明 ， 最 好 的 分 支 结 构 总 会 转移 成 功 ， 而 最 坏 的 情形 ， 模 式 TTFFTT 表明 分 支 
| 预测 器 对 这 个 序列 的 预测 错误 最 多 。 下 图 给 出 了 每 个 循环 的 预测 错误 次 数 。 


| 人 tka ee ax 
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Courtesy of Igor Ostrovsky. 
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6.4.4 延迟 分 支 


最 简单 的 处 理 分 支 方式 就 是 什么 都 不 做 ; 即 一 检测 到 分 支 指令 就 冻结 流水 线 并 ， 而 在 分 
支 处 理 完 后 解冻 流水 线 ， 并 从 目标 地 址 处 继续 取 指 。 表 6-11 描述 了 在 分 支 转移 成 功 和 不 成 
功 时 冻结 流水 线 的 结果 。 在 表 6-11a 中 ， 假 定 在 -3 周期 读 操作 数 阶段 检测 出 分 支 。 流 水 线 
在 -2 周期 分 支 进行 到 它 的 执行 阶段 时 解冻 。 在 表 6-11b 中 ， 分 支 转 移 成 功 ， 流 水 线 直 到 -1 
周期 才 被 解冻 。 这 种 分 支 处 理 方法 效率 很 低 。 

表 6-11 因 分 支 转移 成 功 与 否 冻 结 流水 线 
a) 分 支 转移 不 成 功 

GELE 取 指 

一 4 i= Branch | 1 


i( 解冻 ) El 


: TITIS 
bed 
~ 


+1 i+4 i+3 i+2 i+1 
b) 分 支 转移 成 功 
时 钟 周期 取 





it 
-|F 
* 
T 
= 
St 
J 
Eal 
şt 


l 
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| 
N 
| 
w a 
| 
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| 
A 
~ 
Il 
w 
e] 
S 
B 
O 
= 
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N 
| 
w 





=7 i=1 
-1 i( 解冻 ) 








下 面 按照 表 6-11 中 指令 执行 顺序 来 计算 分 支 开 销 。 转 移 不 成 功 的 分 支 会 引入 一 个 时 钟 


a 
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周期 的 额外 开销 ， 而 转移 成 功 的 分 支 会 引入 3 个 时 钟 周期 的 额外 开销 。 因 此 ， 每 条 指令 的 平 
均 周 期 数 ， 
T=1°(1 —P,)+2°P,(1 — P) + 4°P,P,= 1 + P, + 2P,P, 

如 果 P, BUN 0.2, P, 取 值 为 0.8 (20% 的 指令 是 分 支 指令 ，80% 的 分 支 会 转移 成 功 )， 

我 们 会 得 到 
Tye = 1+0.2+2X0.2X0.8 = 1.52 

这 个 等 式 表示 分 支 指令 使 性 能 下 降 了 52%. 

正如 我 们 已 经 看 到 那样 ， 一 些 处 理 器 实现 了 延迟 分 支 ， 这 种 技术 被 RISC Il, MIPS, 
Am29000 和 IBM 801 等 处 理 器 所 采用 。 因 为 在 分 支 指令 执行 结束 时 ， 紧 挨 着 分 支 指令 的 下 
一 条 指令 几乎 也 已 执行 结束 ， 显 然 ， 让 这 条 执行 完 似乎 是 很 合理 的 。° 也 就 是 说 ， 可 以 将 一 
条 指令 放 在 分 支 指令 之 后 ， 并 且 这 条 指令 总 是 与 分 支 指令 并 行 执行 。 

K 6-12 描述 了 延迟 分 支 对 四 阶段 流水 线 的 影响 。 Sat age iat 即使 它 紧 接 在 
分 支 指令 之 后 。 正 如 读者 所 看 到 的 那样 ， 分 支 开销 减少 了 一 个 周期 。 ， 可 以 对 这 个 原理 
进行 扩展 ， 执 行 分 支 之 后 的 两 条 指令 。 

表 6-12 ”延迟 分 支 对 RISC 流水 线 的 影响 
ao ee a 保存 
ET wa | 


3 TT |_| a E 
a ww | 
a pae ù m fr 


请 考虑 带 有 表 6-12 中 延迟 分 支 的 四 阶段 流水 线 的 平均 CPI。 当 分 支 转移 不 成 功 时 ， 分 
支 开 销 为 0， 因 为 指令 i+ 1 总 会 被 执行 ， 而 且 流 水 线 不 会 暂停 ， 因 为 流水 线 不 会 被 冻结 。 而 
当 分 支 转移 成 功 时 ， 因 为 指令 i+ 1 总 会 被 执行 ， 所 以 仅 有 两 个 时 钟 周期 的 损失 。 

Tye = 1°(1 — P,) + 1*P,(1 — P) + 3°P,P, = 1 + 2P,P, 

车 P, BIEX 0.2, P.X 0.8, WA Tue =1+2x0.2x0.8 = 1.32， 这 表明 与 简单 冻结 流水 
线 相 比 性 能 得 到 了 一 定 的 提升 。 

从 程序 员 的 角度 来 看 ， 在 分 支 指令 之 前 执行 前 的 指令 放 在 分 支 指令 之 后 。 请 考虑 下 述 由 
RISC 伪 码 表示 的 代码 段 : 


R= P+Q 
C=B-A 
goto NEXT 


对 应 的 RISC 代码 为 : 


日 我 已 经 假设 ， 对 于 一 个 将 执行 的 分 支 ， 流 水 线 在 保存 结果 阶段 解冻 。 在 执行 阶段 解冻 流水 线 来 省 下 一 个 周期 
的 方案 是 可 能 的 
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ADD R,P,Q ;[R] < [P] + [Q] 
BRA NEXT ; [PC] <— NEXT 
QB,A lc] + [B] LA] ; REER PRA 

正如 你 所 看 到 的 ，RISC 代码 将 减法 指令 放 在 分 支 指令 之 后 。 减 法 指令 会 自动 执行 ， 因 
为 当 分 支 指 令 结束 时 它 也 差不多 执行 完 。 

Sima 等 人 9 甚至 认为 : ERD RMT PRESS ERM ARS MMT, thei 
W, WEVA Ap Se ths BEER ARE a E BE SU SAT, SESE HK BAA GY 
所 定义 的 有 所 区 别 。 

如 果 编 译 器 能 够 找到 一 条 独立 的 指令 并 将 其 放 在 分 支 指令 之 后 ,那么 延迟 分 支 机 制 将 是 
有 效 的 。 术 语 “ 独 立 的 ”( 即 与 分 支 指令 不 相关 ) 强调 ， 不 能 将 任意 一 条 指令 放 在 分 支 指令 之 
后 。 例如， 不 能 使 用 一 条 影响 分 支 结 果 的 指令 。 被 选 出 的 指令 应 该 是 那些 无 论 分 支 转 移 是 否 
成 功 都 会 被 执行 的 指令 。 如 果 没 有 可 用 的 指令 ， 编 译 器 必须 插入 一 条 woe 指令 ( 空 操作 ) 以 
保持 流水 线 继续 运转 。 在 大 约 60% 的 情况 下 ， 可 以 找到 一 条 适合 放 在 分 支 之 后 的 指令 。 之 
前 我 们 曾经 说 过 ， 由 于 延迟 分 支 对 于 超标 量 处 理 器 和 异常 处 理 机 制 的 副作用 ， 这 种 技术 在 今 
天 并 没有 那么 受 欢 迎 。 

HP-PA 的 分 支 之 后 有 一 条 指令 的 延迟 。HP-PA 的 分 支 指令 含有 1 位 的 取消 字段 
( nullification field)， 它 决定 了 如 何 处 理 紧 跟 在 分 支 之 后 那 条 指令 。 当 该 位 被 置 1 时， 取消 位 
人 允许 分 支 指令 有 条 件 地 根据 分 支 结 果 忽 略 延 迟 槽 内 的 指令 。 请 考虑 一 个 位 于 循环 结构 末尾 处 
的 分 支 。 这 个 分 支 一 般 都 会 转移 成 功 ， 仅 在 退出 循环 时 转移 不 成 功 。 通 过 使 延迟 槽 中 指令 的 
执行 依赖 于 分 支 转移 是 否 成 功 ， 我 们 可 以 将 一 条 循环 指令 放 和 延迟 槽 中 。 当 分 支 转移 到 循 
环 开始 处 时 ， 循 环 指令 将 被 执行 。 然 而 ， 当 在 循环 结构 末尾 处 退出 循环 时 ， 这 条 位 于 循环 
内 的 指令 将 不 会 被 执行 。 图 6-44 描述 了 HP-PA 分 支 指令 的 作用 。 图 6-44a) 给 出 了 代码 段 ， 
图 6-44b) 描述 了 当 分 支 转移 成 功 回 到 循环 入 口 点 时 ， 延 迟 槽 中 的 指令 是 怎样 执行 的 。 在 图 
6-44c) 中 ， 分 支 转移 不 成 功 ， 延 迟 槽 中 的 指令 作废 。 





a) 代码 结构 b) 分 支 转移 成 功 时 的 执行 情 c) 退出 循环 时 的 执行 情况 。 
况 。 延 迟 槽 中 的 指令 将 被 执行 延迟 槽 中 的 指令 将 作废 


图 6-44 HP-PA 延迟 覃 作废 指令 的 效果 
DeRosa fil Levy8 研 究 了 延迟 分 支 的 作用 。 他 们 报告 称 ， 编 译 器 优化 可 以 在 条 件 分 支 指 


令 后 填充 40% ~ 60% 的 延迟 槽 ， 在 无 条 件 分 支 后 填充 90% FY HEIR AY. DeRosa 和 Levy 使 用 
术语 “基本 块 大 小 ”表示 连续 的 (转移 成 功 的 ) 分 支 指令 间 的 平均 指令 数 。 基 本 块 的 平均 长 


© Cengage Learning 2014 


© D. Sima, T. Fountain, P. Kacsuk. Advanced Computer Architecture: A Design Space Approach, Addison-Wesley, 
1997. 

© J. DeRosa and H.M. Levy, “ An evaluation of branch architectures ” , JSCA'87 Proceedings of the 14th Annual 
International Symposium on Computer Architecture, ACM, 1987, pp. 10-16. 
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REH IPP), HF P, 表示 一 条 指令 是 分 支 指令 的 概率 ， 忆 ,表示 分 支 转移 成 功 的 概率 。 他 
们 声称 ， 在 基本 块 较 大 的 计算 机 上 ， 延 迟 分 支 的 作用 相对 较 小 ， 而 RISC 结构 的 基本 块 一 般 
比 CISC 结构 的 大 。DeRosa 和 Levy 还 指出 ， 延 迟 分 支 机制 也 会 带 来 一 些 存 储 空间 上 的 浪费 ， 
因为 大 约 35% 的 延迟 覃 必须 由 无 用 的 nop 指令 来 填充 。 

现在 来 重新 评估 一 下 当 使 用 了 延迟 分 支 技术 而 且 并 非 所 有 延迟 槽 都 由 有 用 指令 填充 时 的 
平均 CPI 公式 。 假 设 延 迟 柳 由 有 用 指令 填充 的 分 支 指 令 的 比例 为 有， 并 且 转 移 不 成 功 的 分 文 
需要 一 个 时 钟 周 期 ， 则 

Tye = (1 -p 1 + pee(l -ph l+ ps pie(l+ b= Fep +DL fa) 

请 注意 1+2-=- 1 中 的 -1 是 因 延 迟 槽 而 节省 下 来 的 周期 数 ， 即 

Tye = 1 -Pi + Po Pihi t P Pi fib + pop -py Pres + Po? Pi? — Pre Pr bef 
=1 +p pb — fa) 

如 果 使 用 了 延迟 分 支 ， MALMRE b, AAA PIR SN ERA 
会 产生 开销 (实际 上 ， 开销 取 决 于 流水 线 的 长 度 和 完成 分 支 指令 的 流水 段 )。 在 真实 机 器 中 ， 
分 支 在 哪里 完成 取决 于 实际 的 体系 结构 。 例 如 ， 分 支 目标 地 址 如 何 生成 ， 以 及 分 支 所 依赖 的 
条 件 码 是 如 何 获 得 的 ， 等 等 。 l 

HBEb=1, p p,=0.2, 并 且 有 =0.8， 则 : 当 使 用 延迟 分 支 时 , TT,.=1+1x0.2x(l 一 
0.8) = 1.04; 当 不 适用 延迟 分 支 时 T= 1+ 1x0.2= 1.2。 


6.5 分支 预测 


当 分 支 转移 成 功 时 ， 一 些 本 不 应 该 被 执行 的 指令 已 经 开始 在 流水 线 上 执行 ， 因 此 这 些 指 
令 将 被 作废 (这 一 过 程 叫 作 清 空 流水 线 )， 并 会 损失 一 些 时 钟 周 期 。 如 果 在 一 条 分 支 指令 执 
行 之 前 我 们 就 已 知道 它 会 转移 成 功 ， 就 可 以 将 分 支 目 标 地 址 处 的 指令 送 和 流水 线 。 比 如 ， 知 
遇 到 指令 Bra N， 只 要 从 内 存 中 取出 这 条 分 支 指令 并 开始 译 码 ， 处 理 器 就 可 以 开始 从 NW、N+ 
1、N+2 等 位 置 取 指 令 。 这 样 ， 有 用 的 指令 总 是 填充 进 流 水 线 。 

对 于 BRA 那样 的 无 条 件 分 支 指令 ， 预 测 机 制 的 效果 很 好 。 条 件 分 支 则 会 带 来 一 些 问 
题 。 请 考虑 分 支 指令 ago N， 它 会 在 零 位 为 1 时 跳 转 到 地 址 W 处。 处 理 器 是 应 该 假设 分 支 
转移 不 成 功 并 按 顺 序 取 指 ， 还 是 假设 分 支 转移 成 功 并 从 分 支 目标 地 址 入 处 取 指 呢 ?” 正 如 我 
们 已 经 讲 过 的 ， 各 种 各 样 的 高 级 语言 结构 都 需要 实现 条 件 分 支 。 请 考虑 下 面 的 高 级 语言 代 
码 段 : 


IF (J < K) I = I +I; 
(FOR T = 1; T <= I; T++){ 


} 

第 一 个 条 件 操作 会 将 /与 进行 比较 。 只 有 问题 本 身 才 会 告诉 我 们 是 总 会 小 于 KK， 还 
是 J 总 会 大 于 K， 还 是 一 半 时 间 /小 于 K， 而 男 一 半 时 间 大 于 K。 

代码 段 中 的 第 二 个 条 件 操作 由 一 个 For 结构 实现 ， 它 会 在 FOR 循环 的 结尾 测试 计数 器 的 
值 ， 以 决定 是 跳 回 结构 体 中 还 是 结束 循环 。 在 这 个 例子 里 ， 你 可 能 希望 循环 重复 下 去 而 不 是 
退出 。 一 些 循环 在 退出 之 前 会 执行 数 千 次 。 因 此 ， 一 种 比较 明智 的 做 法 是 分 析 条 件 分 支 的 类 
型 ， 如 果 认 为 分 支 会 转移 成 功 就 用 分 支 目 标 地 址 处 的 指令 填充 流水 线 ， 如 果 认 为 分 支 转移 不 
成 功 就 用 分 支 指令 后 面 的 指令 填充 流水 线 。 
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人 们 已 经 提出 了 各 种 各 样 通过 预测 分 支 结 果 来 减少 分 支 开 销 的 方案 。 在 介绍 这 些 方 案 之 
前 ,我 们 先 来 讨论 一 下 如 何 计算 它们 的 有 效 性 。 预 测 一 个 有 两 种 可 能 输出 的 系统 的 行为 (分 
支 转移 成 功 或 者 不 成 功 ), 会 有 4 种 可 能 : 

1. 预测 分 支 转移 成 功 且 分 支 转移 成 功 一 一 正确 输出 。 

2. 预测 分 支 转移 成 功 且 分 支 转移 不 成 功 一 一 不 正确 输出 。 

3. 预测 分 支 转移 不 成 功 且 分 支 转移 不 成 功 一 一 正确 输出 。 

4. 预测 分 支 转 移 不 成 功 但 分 支 转移 成 功 一 一 不 正确 输出 。 

K 6-13 列 出 了 这 4 种 可 能 情况 的 开销 。 请 注意 ， 可 以 用 分 支 执行 时 间 (cost) 或 分 支 开 
销 (penalty) 来 描述 分 支 带 来 的 性 能 损失 。 分 支 执行 时 间 是 指 执行 分 支 指令 所 需 的 时 钟 周期 
总 数 ; 分 支 开销 则 是 指 相 比 于 无 性 能 损失 情况 的 额外 时 钟 周期 数 ， 即 分 支 开销 = 分 支 执行 时 
ji] —1., 








R 6-13 “分支 开销 
结果 分 支 开 销 

分 支 转移 成 功 O aeren | o o a a-1 

分 支 转移 成 功 | bee | 5 b-1 

分 支 转移 不 成 功 g= 

分 支 转移 不 成 功 ”| seme Td 4-1 

下 面 来 计算 一 下 具体 系统 中 的 平均 开销 。 为 了 完成 计算 还 需要 更 多 的 信息 。 首 先 需要 知 
道 一 条 指令 是 分 支 指令 的 概率 (相对 于 其 他 类 型 的 指令 )。 假 设 一 条 指令 是 分 支 指令 的 概率 
为 p,。p 的 值 可 以 通过 测量 静态 或 动态 指令 数 来 得 到 。 其 次 需要 知道 分 支 指令 转移 成 功 的 概 
率 p,。 最 后 ， 需 要 知道 预测 的 精确 性 ，p, 是 分 支 预测 正确 的 概率 。 图 6-45 描述 了 一 条 指令 
的 所 有 可 能 结果 。 

一 条 分 支 指令 的 执行 时 间 ( 即 所 需 的 时 钟 周 期 数 ) 为 

Cue =alP anganga) 十 OP aacueces) 十 C( 卫 预测 转移 但 没有 转移 ) 十 UP 预测 不 转移 且 没 有 转移 ) 


一 条 分 支 指令 的 执行 时 间 为 (1 — py) + psCsve。 





b 个 时 钟 周期 
预测 不 转移 但 
分 支 转移 
c 个 时 钟 周期 
预测 转移 但 分 
支 没有 转移 





16; 

a 
预测 不 正确 

d 个 时 钟 周期 


预测 不 转移 且 
分 支 没 有 转移 
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图 6-45 分支 预 测 树 
如 果 一 个 事件 或 它 的 对 立 事件 一 定 会 发 生 ， 则 它们 的 概率 之 和 为 1， 利用 这 一 原理 可 得 
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(1 一 ps) = 一 条 指令 不 是 分 支 指令 的 概率 。 

(1 = p) = 一 个 分 支 转移 不 成 功 的 概率 。 

(1 — p) = 预测 不 正确 的 概率 。 

每 条 分 支 指令 的 平均 CPI 的 计算 方法 如 下 ， 沿 着 每 一 条 可 能 的 路 径 ， 将 发 生 的 概率 与 所 
需 的 执行 时 间 相 乘 ， 然 后 将 所 有 路 径 的 时 间 相 加 ; 即 

Cwe = 4° (PtP) + bp;* (1 — p.) + ee(l — p) °C —p.) + de(l — p) "pP. 

这 个 表达 式 并 没有 明显 的 帮助 。 可 以 做 两 个 假设 帮 有 我 们 简化 这 个 表达 式 。 第 一 个 假设 为 
a=d=N( 即 如 果 预 测 正确 ， 则 周期 数 为 V)。 另 一 个 简化 是 =c=83 ( 即 如 果 预 测 错误 ， 则 
周期 数 为 BB)。 因 此 , 平均 CPI 为 1 一 ps,+pb*Cw; 即 

(1 = pi) +p [N" piep. + BePie(l — p)+Be(1 —p)°*(l -pe)+Ne(l =p,)* p] 
=(1 — p,) + pe” [N" p. + Be(1 一 Po]。 

若 进一步 假设 预测 正确 时 不 会 产生 任何 开销 ( 即 N= 1)， 则 有 : 

(1 = pe) +p. [lepe + Be(1 —p,)]o 

静态 和 动态 分 支 预测 

实现 分 支 预测 有 两 种 方法 ， 分 别 是 静态 分 支 预测 和 动态 分 支 预测 。 静 态 分 支 预测 假设 分 
支 总 会 转移 或 者 总 不 转移 。 对 真实 代码 的 观察 表明 分 支 指令 有 超过 50% 的 机 会 会 转移 成 功 ， 
因此 ， 最 简单 的 静态 分 支 预测 机 制 就 是 ， 只 要 一 检测 出 分 支 指令 就 从 分 支 目 标 地 址 处 取出 下 
条 指令 。 

一 种 更 好 地 静态 预测 分 支 结果 的 方法 是 观察 分 支 在 真实 代码 中 的 行为 ， 因 为 一 些 分 支 指 
令 相 比 其 他 分 支 指令 更 频繁 或 者 更 少 地 发 生 转 移 。 也 就 是 说 ， 测 试 大量 的 代码 ， 确 定编 译 器 
如 何 使 用 这 些 分 支 ， 并 在 此 基础 上 进行 分 支 预测 。Liljja 称 ， 用 操作 码 来 预测 分 支 的 结果 可 
以 达到 75% 的 准确 率 。 

将 分 支 指令 操作 码 中 的 一 位 用 作 分 支 预测 标志 可 以 扩展 静态 分 支 预测 机 制 。 根 据 对 该 分 
支 转移 或 不 转移 的 估计 ， 编 译 器 负责 将 该 位 置 1 或 清 0。 例 如 ， 通 过 添加 后 组 hh 表明 预测 分 
支 转移 成 功 ， 可 以 在 一 些 编译 语言 中 手动 加 入 这 一 预测 。 该 技术 的 预测 精度 为 74% 一 94%. © 

动态 分 支 预 测 技术 在 运行 时 使 用 程序 过 去 的 行为 来 预测 其 将 来 的 行为 。 假 设 处 理 器 维护 
一 份 关于 分 支 指令 的 表格 ， 其 中 包含 了 每 个 分 支 可 能 的 行为 的 信息 。 每 次 一 条 分 支 指令 执行 
时 ， 它 的 结果 ( 即 转移 或 者 不 转移 ) 将 被 用 来 更 新 表 中 相应 的 项 。 处 理 器 使 用 该 表决 定 是 取 
分 支 目 标 地 址 处 的 指令 还 是 顺序 地 执行 下 一 条 指令 。Lee 和 Smith 报告 称 ，! 位 分 支 预测 
器 的 精度 超过 80%， 而 S 位 预测 器 能 提供 98% 的 预测 精度 。 下 面 将 更 详细 地 介绍 动态 分 支 
预测 。 


6.6 动态 分 支 预测 


有 很 多 种 方法 可 以 实现 运行 时 分 支 预测 机 制 。 预 测 未 来 就 是 用 有 关 过 去 的 信息 对 未 来 做 
出 有 意义 的 猜测 。 我 们 可 以 设置 一 个 标志 并 将 分 支 的 最 后 一 次 执行 结果 设 为 该 标志 的 值 。 如 
果 一 个 分 支 转移 不 成 功 ( not taken), WRAIG EN N (EI Not) 并 预测 该 分 支 在 下 一 次 执 


© D.R. Ditzel and H.R. McLellan, “ Branch Folding in the CRISP Microprocessor: Reducing the Branch Delay to 
Zero” , Proc 14th Ann. Symp. Computer Architecture, 1987, pp. 2-9. 

© JKEF. Lee and A.J. Smith, “ Branch Prediction Strategies and Branch Target Buffer Design” , Computer, Jan. 1984, 
pp. 6-22. 
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行 时 转移 不 成 功 。 换 句 话 说 ， 这 一 预测 机 制 占用 1 位 存储 空间 ， 并 且 它 的 预测 结果 就 是 分 支 
最 后 一 次 执行 的 结果 。 尽 管 这 一 策略 对 循环 来 说 可 能 比较 有 效 ， 但 当 分 支 方向 频繁 改变 时 
预测 结果 将 会 非常 的 差 ， 对 于 序列 TNTNTNT… 会 100% 预测 错误 。 然 而 ， 如 果 分 支 执行 结果 
HEE TTTNNNNTTTTTNNN， 假 设 一 位 预测 右 的 初始 值 为 T， 那 么 它 将 预测 出 TTTITNNNNsTTTTTNN。 
加 阴影 处 表示 预测 错误 。 

如 果 使 用 两 位 分 支 历 史 信息 ， 则 可 以 得 到 一 个 更 复杂 的 预测 器 ，。 实 际 上 ， 当 增加 更 多 的 
信息 位 时 ， 预 测 器 能 够 做 出 更 好 的 预测 。 

下 面 从 Intel Pentium 处 理 器 9 中 集成 的 简单 两 位 动态 分 支 预 测算 法 开始 介绍 。 一 个 两 位 
的 寄存 器 记录 了 预测 器 的 4 种 可 能 状态 ( 见 图 6-46 )， 使 用 分 支 的 最 近 历 史 来 预测 其 未 来 的 
行为 。 这 个 分 支 预测 器 是 以 每 个 分 支 为 基础 进行 操作 的 ; 即 程序 中 的 每 个 分 支 都 需要 一 个 独 
立 的 状态 计数 器 


转移 不 成 功 
转移 成 功 


转移 成 功 
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转移 不 成功 
图 6-46 ”饱和 计数 器 分 支 预测 器 的 状态 网 


请 考虑 图 6-46 中 的 两 位 动态 分 支 预测 器 。 这 一 机 制 能 够 在 单 次 预测 错误 时 不 改变 它 的 
下 一 次 预测 结果 。 然 而 ， 如 果 连 续 两 次 预测 错误 ， 它 会 将 预测 结果 取 反 。 

图 6-46 的 状态 机 体现 了 从 00 ~ 11 计数 器 的 改变 。 图 6-46 的 两 个 状态 11 和 10 代表 分 
支 转移 成 功 状态 ，01 和 00 代表 分 支 转移 不 成 功 状态 。 这 是 一 个 饱和 计数 器 ， 因 为 如 果 00 
持续 不 发 生 的 话 还 是 00， 如 果 11 持续 发 生 的 时 候 还 是 11。 在 这 个 预测 中 引入 了 强 转 移 (或 
者 强 不 转移 ) 的 概念 。 如 果 一 个 给 出 的 分 支 指令 连续 两 次 或 更 多 次 转移 (或 者 不 转移 )， 状 态 
机 就 是 强 转移 11 状态 (或 者 强 不 转移 00 状态 )。 

现在 ， 如 果 一 个 分 支 的 产生 破坏 了 序列 ， 状 态 机 从 强 状态 转换 到 弱 状 态 ， 但 是 这 并 不 改 
变 预 测 。 假 设 机 器 是 在 强 转 移 状 态 11。 这 将 预测 下 条 分 支 也 会 转移 。 然 而 ， 如 果 下 条 分 支 
没有 转移 ， 它 将 转 到 弱 转 移 状态 10。 在 这 个 状态 中 , 不 管 上 次 预测 的 错误 ， 它 将 依然 预测 
分 支 会 转移 。 

在 弱 状 态 ， 之 前 的 分 支 方 向 被 假定 为 异常 和 非典 型 的 。 在 下 一 个 分 支 ， 有 两 件 事情 中 的 
一 件 事 可 能 会 发 生 。 要 么 之 前 的 趋势 被 加 强 ， 回 到 之 前 的 强 转 移 状态 ， 要 么 第 二 次 预测 错 


© M.Bekerman and A. Mendelson, “A performance analysis of Pentium processor systems”, /EEE Micro, Vol. 15, No. 5, 
October 1995, pp. 72-83. 


误 ， 转 换 到 弱 不 转移 状态 01， 并 将 改变 下 一 条 分 支 预测 的 方向 。 如 果 第 三 个 分 文 也 是 不 转 
移 方 向 ， 状 态 机 将 直接 换 到 强 预测 不 转移 状态 00。 图 6-46 中 的 状态 机 也 叫 作 饱和 计数 器 ， 
因为 当 状 态 从 10 上升 到 11 (或 者 从 01 下 降 到 O00) 时 ， 更 多 的 计数 不 会 改变 状态 (也 就 是 
计数 器 是 饱和 的 )。 想 想 我 们 第 一 次 在 MMX 指令 集中 遇 到 饱和 的 概念 。 

请 考虑 下 面 的 例子 。 假 设 某 个 特定 的 分 支 的 结果 序列 如 下 (T= 分支 转移 成 功 ，N= 分 支 
转移 不 成 功 )。 

TT TN @ TCE NN NPR ERTTIeTrE ee 2 

在 这 个 例子 中 ， 分 支 转移 成 功 16 次 ， 转 移 不 成 功 10 次 。 假 设 分 支 转移 成 功 需要 4 个 周 
期 ， 转 移 不 成 功 需 要 1 个 周期 ， 这 个 序列 的 总 时 间 开 销 为 16 x 4+ 10 x 1=74 个 周期 。 

下 面 使 用 饱和 计数 器 来 预测 一 个 分 支 是 否 会 转移 。 假 设 分 支 预测 器 的 初始 状态 为 sz ( 强 
转移 )。 下 面 的 结果 序列 中 C 代表 正确 预测 ， 丈 代表 错误 预测 。 

在 这 个 例子 里 ， 动 态 预 测 器 做 出 了 19 次 正确 预测 和 7 次 错误 预测 ， 所 花费 的 时 钟 周 期 
总 数 为 19x1+7x4=47 个 周期 。 

图 6-46 中 的 分 支 预测 状态 机 并 不 是 唯一 可 行 的 模型 。 也 可 用 其 他 状态 机 基于 过 去 的 分 
支 历史 来 预测 它 的 下 一 次 转移 是 否 成 功 。 图 6-47 给 出 了 另外 一 种 方案 ， 滞 后 的 两 位 预测 器 ， 
它 在 第 一 次 错误 预测 时 使 状态 从 弱 预 测 状态 转换 到 相反 的 强 预测 状态 。 下 面 是 两 个 序列 以 及 
图 6-46 和 图 6-47 中 预测 器 的 处 理 结果 。 请 注意 滞后 计数 器 是 怎样 在 不 改变 状态 的 情况 下 人 处 
理 序列 中 的 脉冲 的 。 


xh T TTNT TT OTNNNNNTNNNT TT TN T TT T T 
状态 ST ST ST WTST ST ST ST WT WNSN SN SN WNSN SN SN WNWTST ST WTST ST ST ST ST 
ml T TTTT Tr TT *TONNNNNNNNNT TTT T OT OT TT 


oe oe aC We c#eec WWE EC eC WE eC eC WwW eC Wee Ce Cc 


饱和 计数 器 (图 6-46 ) 
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转移 成 功 


转移 MB ail pees 
CH Ih 11 












转移 不 成 功 


转移 成 功 转移 不 成 功 





和 betha 
转移 不 成 功 转移 成 荔 转移 成 功 









转移 
不 成 功 


预测 弱 转 移 
不 成 功 01 
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转移 不 成 功 
图 6-47 男 一 种 两 位 分 支 预测 状态 机 


6.6.1 分 支 目标 缓冲 


一 种 叫 作 分 支 目标 缓冲 (BTB) 或 者 分 支 目 标 Cache 的 专用 存储 器 是 一 个 与 减少 分 支 开 
销 有 关 的 重要 概念 ， 它 保存 了 当前 程序 中 活跃 的 分 支 指 令 的 信息 。 我 们 将 在 《计算 机 存储 与 
外 设 》 第 1 章 中 介绍 Cache ; 在 这 里 要 说 的 就 是 ，Cache 是 一 个 保存 了 频繁 使 用 的 数据 的 高 
速 存 储 器 ， 它 的 访问 速度 比 主 存 快 得 多 。 被 缓存 的 信息 包括 : 分 支 地 址 ， 分 支 的 预测 结果 ， 
分 支 历 史 ， 分 支 目 标 地 址 ， 以 及 目标 地 址 处 的 指令 复 本 。 

图 6-48 描述 了 BTB 的 一 种 简单 结构 ， 它 的 每 一 项 记录 了 下 一 条 指令 的 地 址 和 一 个 表示 
分 支 是 否 转移 成 功 的 预测 位 。8 
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图 6-48 ”简单 的 分 支 目 标 缓冲 
K 6-14 按照 Kavi 的 描述 给 出 了 分 支 目 标 缓冲 的 运行 过 程 。 表 6-14a H, JAHH 0 读 出 的 
指令 i 是 一 个 条 件 分 支 。 假 设 该 指令 已 经 被 缓存 在 BTB 中 ， 则 它 的 目标 地 址 是 马上 就 可 以 
使 用 的 。 下 一 条 指令 可 以 从 BTB 给 出 的 目标 地 址 处 载 人 ， 无需 执行 一 个 新 的 取 指 周期 。 因 


© K.M. Kavi. “ Branch folding for conditional branches” , JEEE CS Technical Committee on Computer Architecture 
(TCCA) Newsletter, Dec. 1997, pp. 4-7. 





此 ， 此 时 没有 分 支 开销 。 

K 6-14b 则 描述 了 当 BTB 中 保存 的 分 支 预 测 结 果 错 误 时 会 发 生 什 么 。 一 遇 到 分 支 指 令 
就 会 从 BTB 中 缓存 的 目标 地 址 处 取出 指令 。 然而 ， 当 这 条 条 件 分 支 指令 进入 执行 单元 时 ， 
如 果 检 测 到 预测 错误 ， 则 必须 将 正确 的 目标 地 址 载 人 程序 计数 器 (在 表 6-14b 中 用 M 标 出 ) 
这 个 错误 的 预测 会 花费 两 个 时 钟 周期 。 

#6-14 ”使 用 BTB 减少 流水 线 中 的 气泡 
a) 分 支 预 测 正确 
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揣测 的 指令 N{ 气 泡 } 
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shi | MN 

预测 错误 ,指令 +1 


Kavi 对 传统 BTB 提出 了 一 种 巧妙 的 修改 方案 ， 从 本 质 上 来 讲 这 是 一 种 对 冲 的 方案 。 除 
了 保存 每 个 分 支 的 地 址 以 及 转移 成 功 时 的 目标 地 址 外 ，BTB 还 保存 了 分 支 转移 不 成 功 时 
目标 地 址 处 的 指令 (图 6-49 )。 如 果 分 支 预测 正确 ， 就 从 预测 的 目标 地 址 处 取出 指令 ， 如 
K 6-14a 所 示 。 如 果 分 支 预测 错误 ， 这 只 有 在 分 支 指令 的 执行 阶段 才能 检测 出 来 。 由 于 已 经 
缓存 了 预测 不 正确 时 实际 目标 地 址 处 的 指令 ， 因 此 可 以 立即 取出 并 执行 这 条 指令 ， 无 需 开 始 
一 个 新 的 取 指 周期 。 














程序 计数 器 


Cached PC Predicted PC POR 


缓存 的 操作 码 
是 预测 错误 的 目 
标 地 址 处 的 指令 
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图 6-49 ”缓存 了 预测 错误 地 址 处 操作 码 的 改进 后 的 分 支 目 标 缓冲 


K 6-15 描述 了 修改 后 的 分 支 目 标 缓冲 在 预测 错误 时 会 发 生 什 么 。 分 支 一 被 处 理 完 ( 即 表 
6-15 中 的 周期 2 )， 预 测 错误 时 的 目标 指令 BEUR, 因为 它 已 被 缓存 在 BTB 中 。 程序 计 数 
器 将 自动 修改 为 指向 这 条 路 径 上 的 第 二 条 指令 ， 因 为 我 们 已 经 从 BTB 中 取出 了 第 一 条 指令 。 

有 些 分 支 目标 缓冲 会 缓存 分 支 目 标 地 址 处 的 一 条 指令 ， 其 他 的 则 会 缓存 连续 的 几 条 指 
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Do 同样 ， 有 些 分 支 目标 缓冲 仅 会 保存 分 支 转移 成 功 时 的 目标 地 址 。 
表 6-15 AER 


a oe E 
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读 操 作 数 保存 操作 数 


= 气泡 } 


E, rre ar 2. 气泡 } 
mma, +2 | Mr2 | 
TIE 


AMD 的 Am29000 RISC 处 理 器 使 用 了 一 个 两 路 组 相 联 Cache 结构 的 BTB， 可 以 保存 
128 条 指令 (HI 512 字 节 )。9Cache 的 每 一 项 包含 了 分 支 目标 地 址 处 的 前 4 条 指令 。 每 当 进 
了 一 次 地 址 不 连续 的 取 指 操作 时 ， 指 令 地 址 在 被 Am29000 的 存储 管理 单元 送 往 存 储 器 的 同 
时 也 会 被 送 到 BTB 中 。 如 果 要 读 取 的 目标 指令 就 在 BTB 中 ， 则 在 下 个 周期 该 指令 将 被 取出 
译 码 。 

然而 ， 如 果 目 标 指令 不 在 BTB 的 Cache 中 ， 必 须 从 外 部 存储 器 中 取出 这 条 指令 并 且 更 新 
BTB。Am29000 使 用 了 一 种 基于 处 理 器 时 钟 状 态 的 随机 蔡 代 算法 。 如 果 缓 存 的 4 条 指令 中 出 
现 了 第 二 条 分 支 指令 ， 该 分 支 应 在 BTB 填充 之 前 执行 ,并 且 BTB 包含 的 指令 会 少 于 4 条 。 

由 于 缓存 分 支 的 项 中 所 记录 的 指令 少 于 4 条， 这 个 块 接 下 来 的 执行 结果 取决 于 分 支 转移 
是 否 成 功 。 如 果 缓 存 分 支 转 移 成 功 ， 那 么 Cache 项 中 少 于 4 条 指令 无 关 紧 要 。 如 果 分 支 转移 
不 成 功 ， 则 必须 从 外 部 存储 器 中 取出 缺失 的 指令 。 

Am29000 也 有 指令 预 取 机 制 。 当 遇 到 一 条 地 址 不 连续 的 指令 时 ， 访 问 BTB ， 若 访问 成 
功 则 表明 分 支 目标 地 址 处 的 4 条 指令 已 被 缓存 。Am29000 会 计算 分 支 目 标 地 址 处 4 条 指令 
后 的 地 址 ( 即 已 缓存 的 那些 指令 之 后 下 一 条 指令 的 地 址 )， 并 开始 将 这 些 指令 读 入 它 的 指令 
预 取 缓冲 。 这 种 预 取 机 制 会 使 处 理 器 与 外 部 存储 器 间 的 总 线 总 是 处 于 忙碌 状态 。 

AMD 的 文献 中 表示 ,没有 BTB 时 ， 一 个 转移 成 功 的 分 支 会 产生 1 个 周期 的 分 支 执行 
时 间 以 及 5 个 周期 的 开销 ， 因 为 需要 重新 填充 指令 流水 线 。 如 果 指 令 中 有 20% 是 转移 成 功 
的 分 支 指令 ， 那 么 Am29000 的 平均 CPI 将 是 0.2 x 6 个 周期 + 0.8 x 1 个 周期 = 2.0 个 周期 ; 
也 就 是 说 ， 分 支 的 影响 将 导致 处 理 器 的 总 体 性 能 下 降 一 半 - BTB 的 平均 命中 率 为 60%， 因 
此 处 理 器 的 总 体 性 能 为 0.8x1+0.2x(0.4x6+0.6x1)=02x3+0.8=1.4 个 周期 。 

请 回忆 执行 一 条 指令 所 需 的 平均 时 钟 周期 数 为 Te = 1 + pspb， 其 中 p, 表示 一 条 指令 是 
分 支 指令 的 概率 ，p, 表示 分 支 转移 成 功 的 概率 ，b 表示 分 支 开销 。 将 BTB 考虑 进去 ， 该 公式 
可 被 扩展 为 








Twe = 1 +p p(l — PaO: + bPa), 
其 中 : b 是 在 非 顺序 指令 在 BTB 中 时 的 分 支 开 销 ; b, 是 非 顺 序 指令 不 在 BTB 中 时 的 分 
支 开销 ; Ppa 是 访问 BTB 时 没有 命中 的 概率 。 
Calder 和 Grunwald 提出 通过 在 BTB 中 仅 保存 转移 成 功 的 分 支 来 提高 BTB 的 效率 。 如 
果 一 个 分 支 没 有 缓存 在 BTB 中 且 转 移 不 成 功 ， 它 就 不 会 被 存 人 BTB。 一 个 转移 成 功 的 分 支 


© Am29000 User’s Mannual, Advanced Micro Devices, Sunnyvale, CA. 
© B. Calder and D. Grunwald, “ Fast & accurate instruction fetch and branch predication” , IEEE Proceedings of the 
21st Annual Intl. Symposium on Computer Architecture. 1994, pp. 2-11. 
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总 被 保存 在 BTB 中 。 这 种 方法 背后 的 原理 是 ， 转 移 不 成 功 的 分 文 不 会 像 转移 成 功 的 分 支那 
样 增加 分 支 开 销 ， 因 为 顺序 的 下 一 条 指令 已 经 取 入 流水线 中 了 。 通 过 排除 转移 不 成 功 的 分 
文 ，BTB 将 留 出 更 多 空间 容纳 那些 转移 成 功 的 分 文 。 

分 文 目标 缓冲 区 和 分 支 预测 顺 是 不 同 的 部 件 。 然 而 ， 这 两 种 方案 可 以 绪 合 在 一 起 提高 效 
率 。BTB 项 可 被 扩展 为 既 记录 分 支 历 史 也 记录 目标 地 址 处 的 指令 。 


6.6.2 ”两 级 分 支 预测 

减少 分 支 开销 的 压力 导致 了 20 世纪 90 年 代 早 期 一 系列 精确 预测 条 件 分 支 结果 的 人 研究 活 
动 的 出 现 。 预 测 一 个 给 定 分 支 的 结果 并 不 像 预 测 赛马 结果 那样 简单 ， 也 不 会 像 读 塔 罗 牌 或 者 
品 茶 一 样 科 学 。 预 测 一 个 分 支 的 结果 是 十 分 复杂 的 。 请 考虑 下 面 的 语句 ， 

IF x < 50 then y = y + 4; 

在 不 知道 二 值 的 情况 下 不 可 能 预测 出 这 个 分 支 的 结果 。 如 果 第 二 次 遇 到 这 个 操作 ， 以 上 
次 分 文 结 果 作 为 预测 结果 也 许 是 一 个 很 好 的 策略 ， 因 为 50 可 能 是 一 道 坎 ， 仅 仅 在 很 偶然 的 
情况 下 关 才 会 跳 过 这 道 坎 。 当 分 支 和 其 他 分 支 互 相 影 响 时 ， 问 题 会 变 得 更 加 复杂 ， 也 就 是 
说 ， 当 一 个 分 支 的 结果 会 影响 接 下 来 分 支 的 结果 时 ， 人 情况 会 更 复杂 。 请 考虑 下 面 的 语句 : 


IF x < 50 then y = y + 4; 


iF y = 7 then iz = 2; 

第 二 个 分 支 通 过 测试 y 来 决定 是 否 转 移 。 然 而 ， 第 一 个 分 支 测 试 x 并 决定 是 否 修改 
ys 因此， 第 一 个 分 支 可 能 会 影响 第 二 个 分 支 的 结果 ， 即 这 两 个 分 支 之 间 存 在 一 定 程度 的 相 
关 性 。 


全 局 行为 

| 下 图 描述 了 全 局 行为 的 含义 。 每 个 方 框 中 包含 一 条 程序 中 的 分 支 。 请 注意 一 些 分 支 
| 出现 了 几 次 ， 这 是 因为 通过 程序 中 的 不 同 路 径 可 以 托 达 这 些 分 支 。 每 个 分 支 下 面 的 判断 
| 框 表示 分 支 转移 成 功 或 不 成 功 。 





| © Cengage Learning 2014 
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我 们 在 该 网 络 中 画 了 两 条 线 ， 一 条 是 实 线 ， 一 条 是 虚线 。 每 条 线 都 代表 了 代码 中 的 
| 一 人 





概念 ， 它 被 一 DAEN, MAAIEN, pen 果 将 被 记录 在 一 ae 
a. 在 这 个 例子 里 ， 程 序 中 有 3 DIX, A BAC, BAA Tf; WERS 
记录 最 近 的 7 次 分 支 指令 的 结果 。 假 设 分 支 是 按照 48CCB4C 的 顺序 执行 的 ,那么 对 应 的 
分 支 结果 就 分 别 为 T, N, T, T, T, N, Ne 这 个 序列 会 将 分 支 模式 历史 寄存 器 的 值 置 为 
0011101， 它 将 作为 关键 信息 用 于 预测 机 制 中 (请 注意 TNTTTNN 和 0011101 的 书写 顺序 正 
好 相反 )。 


分 支 A BEW XYZ 
ui Si 分 支 模式 历史 寄存 器 
分 支 B Bcs POR 一 -一 > 检测 出 分 支 


分 支 序列 
fp me BNE IJK 源 结果 


转移 成 功 

转移 不 成 功 
转移 成 功 
转移 成 功 
转移 成 功 
转移 不 成 功 
转移 不 成 功 


图 6-50 ”记录 分 支 序列 一 一 分 支 模式 历史 


图 6-51 描述 了 使 用 分 支 模式 历史 索引 2 位 状态 机 表 以 做 出 预测 的 方法 (此 处 仅 使 用 3 
位 BPH 以 保持 图 的 简洁 )。 假 设 最 后 3 个 分 支 的 结果 分 别 为 : 转移 成 功 ， 转 移 不 成 功 ， 转 移 
成 功 。 这 个 序列 将 得 到 向 量 101,， 并 用 它 访 问 表 中 第 5 项 。 假 设 该 项 中 的 状态 机 正 处 于 弱 转 
移 成 功 状态 。 下 一 个 分 支 将 被 预测 转移 成 功 。 如 果 ， 这 个 分 支 现在 确实 转移 成 功 了 ， 状 态 计 
数 器 将 变 为 强 转移 成 功 状态 ， 移 位 寄存 器 的 新 值 将 更 新 为 110。 假 如 分 支 转移 不 成 功 ， 状 态 
wp 并 且 移 位 寄存 器 的 新 值 将 变 为 010。 更 加 实际 的 安排 也 许 

记录 最 近 12 个 分 支 的 结果 。 这 一 机 制 被 证 明 是 高 效 的 。 然 而 ， 了 解 它 实际 上 如 何 工 作 是 
er 你 可 以 将 
这 条 路 径 想 象 为 一 个 代表 该 路 径 的 签名 。 该 签名 将 作为 访问 饱和 状态 机 表 索 引 ， 这 些 状 态 机 
将 学 习 如 何 跟 随 那 个 签名 。 

分 支 模式 历史 仅 基 于 之 前 的 分 支 序列 做 出 预测 。 它 并 没有 考虑 分 支 在 存储 器 中 的 位 置 。 
Yeh AI Patt 使 用 分 支 相关 或 两 级 分 支 预 测 对 简单 的 分 支 预测 表 进 行 了 扩展 。 该 机 制 将 分 支 
的 历史 和 位 置信 息 都 考虑 在 内 。 在 Yeh 和 Patt 的 方案 中 ， 最 后 遇 到 的 大 个 分 支 被 用 作 第 一 
级 分 支 执行 历史 ， 某 个 特定 分 支 的 最 后 7 次 执行 结果 被 用 作 第 二 级 分 支 执行 历史 。 





最 近 一 次 分 支 


O > Danae». 
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© Tse-Yu Yeh and Y.N. Patt, “ Alternative implementations of two-level adaptive branch predicions ” , 19th Annual 
International Symposium of Computer Architecture, Portland, OR, December 1992, pp. 124-134. 
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状态 机 表 的 索引 由 2 位 饱和 状态 机 表 
程序 中 最 近 3 次 分 支 ,0 EE 
的 结果 组 成 
001 
010 
011 
检测 出 分 支 
100 | 
分 支 模式 历史 101 转 预测 结果 È 
110 f $ 
111 : 
© 


图 6-51 使 用 模式 历史 来 索引 状态 机 表 


图 6-52 给 出 了 两 级 预测 器 的 概念 。 第 一 级 预测 信息 直 程 序 计 数 需 的 低位 获得 。 这 个 信 

息 与 当前 分 支 在 程序 中 的 位 置 有 关 (为 了 简化 ， 我 们 使 用 了 其 中 的 3 位 )。 请 注意 ， 这 里 没 
有 使 用 PC 的 最 低 两 位 ， 因 为 在 按 字 节 寻 址 的 32 位 机 器 上 这 两 位 总 是 00. 

没有 使 用 最 低 

两 位 ， 因 为 它们 历史 00 历史 01 

总 是 00 | ra 

PC 中 的 3 位 (第 

2 一 4 位 ) 用 作 索引 


历史 10 历史 11 

















PC=001110010100 


分 支 预测 时 ， 程 序 


计数 器 使 用 位 置信 息 
选 出 一 行 






分 支 历 史 a 
分 支 历史 基于 全 局 分 支 序列 选 出 一 列 。 项 测 结 
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图 6-52 ”两 级 分 支 预测 


分 支 预测 器 的 命名 

Yeh 和 Pat 为 两 级 分 支 预测 器 提出 了 一 种 三 字母 命名 方案 。 这 些 字母 是 ， 

e G, P, 分 别 代表 全 局 历史 ， 单 个 分 支 历 史 ， 单 个 集合 历史 。 

© A，S 分 别 代表 模式 历史 的 类 型 ( 自 适应 的 和 静态 的 )。 

eg，p，8 分 别 代表 模式 历史 表 的 组 成 (全 局 ， 单 个 分 支 ， 单 个 集合 )。 

可 能 的 两 级 预测 器 有 GAg，GAs，GAp，PAg，PAs，PAp，SAg，SAs， 以 及 SAp。 
它们 不 是 全 部 可 能 的 二 级 结构 。 


maa a tt 
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第 二 级 信息 与 所 有 分 支 最 近 的 历史 有 关 (这 里 我 们 仅 使 用 2 位 )。 地 址 位 和 历史 位 共同 
选 出 最 合适 的 状态 机 以 获得 下 一 次 预测 结果 。 真 实 系统 不 会 简单 地 使 用 程序 计数 器 的 低位 作 
为 表 索 引 ， 它 们 基于 PC 的 低位 使 用 更 复杂 的 散 列 机 制 。 

有 关 两 级 分 支 预测 器 的 研究 论文 描述 了 可 能 预测 机 制 的 一 个 模糊 边界 ， 所 有 机 制 都 基于 
相同 的 方案 。 全 局 和 局 部 ( 即 独立 的 ) 是 一 种 变化 。 在 图 6-52 中 分 支 历 史 是 全 局 的 ， 因 为 只 
有 一 个 寄存 器 能 记录 所 有 分 支 的 历史 。 我 们 也 可 以 构造 一 个 单个 分 支 的 历史 表 来 保存 每 个 分 
支 的 结果 序列 。 在 这 种 情况 下 ， 我 们 可 以 使 用 分 支 作 为 访问 状态 机 表 的 索引 。 

有 关 分 支 预测 的 文献 使 用 了 专门 的 三 字符 符号 来 描述 两 级 预测 器 。 例 如 ， 符 号 GAg 用 
G 表示 单个 全 局 分 支 历史 寄存 器 ，4 表示 自 适 应 ，g 表示 单个 模式 历史 表 。 图 6-53 描述 了 一 
个 GAp 预测 器 。 这 个 例子 里 有 一 个 全 局 分 支 历 史 寄存 器 ， 但 是 也 使 用 了 单个 分 支 模 式 历史 
表 ， 因 此 用 p 来 表示 。 在 符号 Gap 中 ,p 代表 “单个 分 支 或 者 单条 指令 ”"， 而 G 代表 全 局 。 

如 果 有 一 个 通过 分 支 地 址 索引 的 状态 机 表 ， 预 测 器 将 被 表示 为 PAp， 因 为 这 里 使 用 单个 
地 址 作为 表 索 引 而 没有 使 用 全 局 模式 历史 表 。 图 6-53 描述 了 PAg 和 PAp 预测 器 。 


Per-address 
分 支 地 址 BHT 





a) 带 有 全 局 PHT 的 PAg 预测 器 


Per-address 


分 支 地 址 BHT 
N 


b) 带 有 每 个 分 支 PHT 的 PAp 预测 器 
图 6-53 PAg 和 PAp 分 支 结果 预测 器 


指令 地 址 与 分 支 历史 相 结合 

人 们 提出 了 两 种 简单 的 将 分 支 地 址 和 分 支 历 史 信 息 结合 在 一 起 的 方法 ， 向 PHT (模式 历 
PR) 提供 一 个 向 量 ， 其 开销 和 复杂 度 均 没有 两 级 分 支 预测 器 那么 大 。gselect 预测 器 用 p 位 
全 局 分 支 历史 值 替 换 字 分 支 地 址 的 最 低 p 位 ; 例如， 当前 分 支 地 址 为 000111101000, A 6 
位 分 支 历 史 为 011110， 则 PHT 的 索引 就 是 00011011110。 尽 管 将 地 址 和 一 个 位 的 序列 结合 
在 一 起 决定 最 后 大 个 分 支 是 否 会 转移 成 功 看 起 来 十 分 奇怪 ， 但 却 十 分 有 效 。 

gshare 预测 器 的 操作 与 gselect 非 常 相 似 ,， 除 了 用 p 位 异 或 门将 分 支 地 址 的 低 p 位 
和 全 局 历史 寄存 器 的 bp 位 生成 一 个 复合 向 量 外 。 如 果 使 用 之 前 的 例子 ， 当 前 分 支 地 址 为 
000111101000, 分支 历 史 为 011110， 则 访问 PHT 的 索引 为 0001100100。 请 注意 这 里 没有 使 
用 分 支 地 址 的 最 低 两 位 ， 因 为 它们 总 是 00 并 且 不 会 参与 到 分 支 预测 的 过 程 中 。 
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tournament 预测 器 是 一 个 特别 有 趣 的 预测 器 ， 它 是 含有 预测 器 的 预测 器 ; 它 带 有 3 个 预 
测 器 ， 其 中 一 个 会 预测 接 下 来 将 要 使 用 另外 两 个 预测 器 中 的 哪 一 个 。 请 考虑 一 个 带 有 两 个 
不 同 预 测 器 P1 和 了 2 的 系统 ， 其 中 一 个 预测 器 的 输出 基于 程序 的 局 部 分 支 历史 ， 另 一 个 则 
基于 全 局 分 支 历史 。 当 遇 到 分 支 时 ， 两 个 预测 器 都 会 猜测 下 一 个 结果 。 第 三 个 预测 器 P3 将 
检查 这 两 个 结果 并 从 中 选择 一 个 。 选 择 算 法 十 分 简单 。 一 开始 ，P3 被 初始 化 为 选择 P1 或 者 
P2 作为 正确 的 输出 ， 比 如 P1。 如 果 了 2 的 预测 与 P1 的 不 同 ，P3 将 继续 选择 P1 的 预测 。 然 
而 ， 如 果 Pl 预测 错误 而 P2 预测 正确 ，P3 就 会 接受 P2 的 预测 结果 。 

有 关 分 支 预 测 技术 性 能 的 研究 出 版 了 很 多 有 趣 的 读物 。Amit° 等 人 总 结 了 一 些 分 支 预 测 
工作 的 结果 。 使 用 两 位 预测 器 而 不 是 一 位 预测 器 所 带 来 的 性 能 收益 特别 小 ， 这 很 令 人 吃惊 。 
而 且 ， 仅 对 于 容量 足够 大 的 分 支 目标 缓冲 ， 基 于 相关 性 的 方案 才 会 优 于 简单 的 基于 计数 器 的 
方案 。 实 际 上 ， 他 们 强调 分 支 预测 策略 相对 BTB 的 命中 率 来 说 是 次 要 的 ; 也 就 是 说 ， 资 源 
最 好 被 用 于 提高 分 支 目标 缓冲 的 容量 而 不 是 试图 得 到 可 靠 的 预测 分 支 结 果 。 然 而 ， 分 支 预测 
准确 率 通 常 在 95% ~ 100% 之 间 。 


本 章 小 结 

到 本 章 为 止 ,我 们 主要 关注 指令 体系 结构 ， 并 略微 关注 了 处 理 器 在 内 部 是 如 何 运 行 以 及 
怎样 组 成 的 。 现 在 我 们 讨论 了 程序 执行 时 硅 片 内 部 发 生 了 什么 。 本 章 之 初 ， 我 们 描述 了 一 个 
用 于 电子 计算 机 的 处 理 器 中 寄存 器 、 总 线 和 功能 单元 是 怎样 组 成 的 。 

控制 器 是 计算 机 的 重要 元 素 ， 它 负责 解释 机 器 指令 。 我 们 简要 描述 了 一 个 微 程序 控制 带 
是 如 何 将 一 条 机 器 指令 解释 为 一 组 微 操 作 的 序列 ， 它 被 保存 在 一 个 叫 作 控制 存储 器 的 只 读 存 
储 骨 中 。 

本 章 用 大 量 篇 幅 来 介绍 流水 线 ， 一 种 对 于 提高 当今 计算 机 的 性 能 功 不 可 没 的 组 成 结构 。 
流水 线 计算 机 将 指令 的 执行 分 为 几 个 阶段 〈 像 Pentium 那样 处 理 器 多 达 31 个 阶段 )， 并 通过 
同时 执行 几 条 指令 来 提高 性 能 。 我 们 从 描述 一 个 直通 计算 机 开始 ， 并 沿 着 从 程序 计数 天 到 操 
作 数 被 写 回 存储 器 的 路 径 ， 描 述 了 如 何在 一 个 周期 内 执行 一 条 指令 。 然 后 介绍 了 流水 线 计算 
机 的 结构 ， 其 中 功能 单元 被 保存 数据 的 寄存 器 分 开 ， 而 每 个 功能 单元 则 处 理 这 些 数据 。 

不 幸 的 是 ， 流 水 线 在 处 理 非 顺 序 分 支 、 子 程序 调用 或 者 子 程序 返回 时 会 遇 到 困难 。 一 旦 
要 跳 转 到 非 顺序 的 位 置 ， 流 水 线 中 当前 指令 之 后 所 有 已 经 执行 了 一 部 分 的 指令 都 不 得 不 被 于 
弃 。 分 支 指令 的 影响 严重 地 降低 了 RISC 处 理 器 的 性 能 。 

本 章 介 绍 了 一 些 能 够 减少 所 谓 分 支 开 销 的 方法 。 为 了 使 流水 线 利用 率 最 大 化 ， 一 些 系统 
总 是 执行 紧 跟 在 分 支 指令 之 后 的 指令 一 一 延迟 分 支 。 一 些 处 理 器 试图 预测 分 支 的 结果 ， 并 
开始 从 分 支 目 标 地 址 处 读 取 指 令 。 


习题 


6.1 根据 图 P6.1 的 微 程序 体系 结构 ， 给 出 实现 指令 app vo, Di 所 需 的 动作 序列 ， 该 指令 的 RTL 定义 
为 


[D1] + [D1] + [DO]. 


© [Amit95] Amit Mital and Barry Fagin, “ The Performance of Counter-and Correlation-Based Schemes for Branch 
Target Buffers” , Transactions on Computers, Decmber 1995 (Vol. 44, No. 12), pp. 1383-1393. 
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请 用 简单 明了 的 语言 (例如 ,“ 将 数据 从 这 个 寄存 器 中 放 到 那 条 总 线 上 ”) 和 一 个 事件 序列 
(例如 Read=1, Eus) 描述 这 些 动作 。 下 表 定 义 了 ALU 的 功能 码 。 请 注意 所 有 数据 都 必须 通过 
ALU (复制 函数 ) 采用 从 总 线 或 C 传送 到 总 线 4 上 。 


操作 


将 PP 复制 到 总 线 4 | 


将 O+1 复制 到 总 线 4 上 
将 P-1 复制 到 总 线 4 上 


将 P-O 复制 到 总 线 4 上 





Bae B 


“4 Read = | 时 
存储 器 进行 读 操 
作 ， 当 Write=1 
时 存储 器 进行 写 
操作 
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图 P6.1 假想 计算 机 的 体系 结构 


6.2 a. 对 于 图 P6.1 中 的 体系 结构 ， 写 出 实现 取 指 令 周 期 所 需 的 信号 和 控制 动作 . 
b. 为 什么 图 P6.1 中 体系 结构 的 效率 较 低 ? 
c. 为 什么 图 P6.1 中 ALU 指令 集 的 效率 较 低 ? 
d. 对 于 图 P6.1 中 的 体系 结构 ， 写 出 执行 指令 ano m, Do 所 需 的 信号 和 控制 动作 ， 该 指令 将 存储 单 
元 M 和 寄存 器 D0 中 的 数据 相 加 ， 并 将 结果 写 人 寄存 器 D0 中 。 假 设 地 址 M 已 保存 在 指令 寄存 
器 JIR 中 。 
6.3 本 题 要 求实 现 寄 存 器 间接 寻 址 。 对 于 图 P6.1 中 的 体系 结构 ， 写 出 执行 指令 app (D1), vo 所 需 的 
信号 和 控制 动作 ， 该 指令 将 以 寄存 器 D1 的 内 容 为 地 址 的 存储 单元 的 内 容 与 寄存 器 D0 中 的 值 相 
加 ， 并 将 结果 保存 在 寄存 器 DO 中 。 该 指令 的 RTL 定义 为 [D0] 二 [[D1]] + [D0]。 
6.4 本 题 要 求实 现存 储 器 间接 寻 址 。 对 于 图 P6.1 中 的 体系 结构 ， 写 出 执行 指令 app [M], Do 所 需 的 


言 号 和 控制 动作 ， 该 指令 将 以 存储 单元 M 的 内 容 为 地 址 的 存储 单元 的 内 容 与 寄存 器 D0 中 的 值 相 
加 ， 并 将 结果 保存 在 寄存 器 D0 中 。 该 指令 的 RTL 定义 为 [Dol <— [[M]] + [D0]。 
6.5 本 题 要 求实 现 带 索引 的 存储 器 间接 寻 址 。 对 于 图 P6.1 中 的 体系 结构 ， 写 出 执行 指令 ADD M, 
D1), Do 所 需 的 信号 和 控制 动作 ， 该 指令 将 以 存储 单元 M 与 寄存 器 D1 之 和 为 地 址 的 存储 单元 
的 内 容 与 寄存 器 DO 中 的 值 相 加 ， 并 将 结果 保存 在 寄存 器 D0 中 。 该 指令 的 RTL 定义 为 [D0] 一 
[[M]+[D1]] + [DO]. 
6.6 对 于 图 P6.1 中 的 微 程序 体系 结构 ， 定 义 实现 指令 TXP1 (p0)+, D1 所 需 的 动作 ( 即 微 操 作 ) FF 
该 指令 定义 为 : 
[D1] <— 2*[M[DO]] + 1 
[D0] <= [DO] +1 
用 简单 明了 的 语言 将 这 些 动作 解释 为 一 系列 使 能 、ALU 控制 、 存 储 器 控制 和 时 序 信号 。 这 是 
一 条 非常 复杂 的 指令 ， 因 为 它 需要 通过 寄存 器 间接 寻 址 方式 访问 存储 器 以 获得 操作 数 ， 需 要 进行 
Fe 2 操作 (没有 ALU 乘法 指令 )。 你 必须 解决 这 一 问题 ， 并 且 你 会 发 现实 现 这 条 指令 需要 几 个 周 
期 。 一 个 周期 是 指 以 将 数据 写 人 寄存 器 为 结束 的 操作 构成 的 序列 。 
6.7 a. 为 什么 在 20 世纪 80 年 代 微 程序 设计 技术 是 实现 控制 器 的 流行 方法 ? 
b. 为 什么 今天 微 程序 设计 技术 不 流行 了 ? 
68 a Pp6.8a 介绍 了 条 件 分 支 指令 在 一 台 直 通 计算 机 上 的 执行 过 程 。 计 算 机 上 灰色 的 部 分 是 条 件 分 
支 指令 不 需要 的 。 你 能 否 想 出 一 些 方法 在 执行 条 件 分 支 指令 时 使 用 计算 机 中 这 些 未 被 使 用 的 
单元 ? 


BRA Target 








BRA Target 指令 
的 目标 地 址 为 
[PC]+4+4*L 














eel CCR 的 Z 位 控制 了 符号 扩展 后 得 到 的 = 
PC 多 路 选择 器 的 输出 。 32 位 字 节 地 址 偏 移 Ẹ 
它 在 顺序 的 下 一 条 指令 3 

地 址 与 转移 成 功 时 的 目 2 

标 地 址 之 间 进 行 选择 & 
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图 P6.8a 假想 计算 机 的 体系 结构 


b. 要 在 P6.8a 所 示 体 系 结构 的 计算 机 上 实现 类 似 ARM 的 条 件 执 行 ， 应 对 该 体系 结构 进行 怎样 的 修 
改 ? 

c. 要 向 P6.8a 所 示 的 计算 机 增加 一 条 条 件 传输 指令 Movz r1,r2,r3， 应 对 该 体系 结构 进行 怎样 的 
修改 ? 该 指令 的 功能 为 [r1] — [r2] if [r3] == 0。 

d. 要 向 P6.8a 所 示 的 计算 机 实现 ARM 那样 的 操作 数 移 位 〈 作 为 一 条 标准 指令 的 一 部 分 )， 应 对 该 
体系 结构 进行 怎样 的 修改 ? 

6.9 请 用 流水 线 级 数 m 和 执行 的 指令 数 N 推导 流水 线 处 理 器 的 加 速 比 公式 ( 即 非 流 水 执行 时 间 与 流水 
执行 时 间 的 比 )。 
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6.10 前 面 推导 出 的 流水 线 加 速 比 公式 在 哪些 方面 存在 缺陷 ? 
6.11 某 处 理 器 按照 以 下 6 个 阶段 执行 一 条 指令 。 下 面 给 出 每 段 所 需 的 执行 时 间 ， 单 位 为 ps ( 1,000ps = 


Ins). 


IF 取 指 300ps 
ID ”指令 译 码 150ps 
OF EREK 250ps 
OE ”执行 350ps 
M 访 存 700ps 


OS ”保存 操作 数 CSE) 200ps 

a. 如 果 处 理 器 是 非 流水 的 ， 执 行 一 条 指令 需要 多 长 时 间 ? 

b. 流水 线 充 满 后 ， 指 令 的 平均 完成 速率 是 多 少 ? 

c. 假设 该 结构 采用 6 阶段 流水 线 实现 ， 由 于 流水 线 锁 存 器 的 影响 ， 每 个 流水 线 阶段 的 延迟 增加 了 
20ps， 执 行 一 条 指令 需要 多 长 时 间 ? 

d. 假设 25% 的 指令 是 转移 成 功 的 分 支 指令 并 且 会 带 来 3 个 周期 的 开销 ， 有 效 的 指令 执行 时 间 是 
多 少 ? 

6.12 RISC 和 CISC 处 理 器 中 都 有 寄存 器 。 请 回答 以 下 有 关 寄 存 器 的 问题 : 

a. 对 于 某 个 体系 结 来 说 ， 构 寄存 器 数量 多 总 比 数 量 少 好 ， 这 种 论点 是 否 为 真 ? 

b. 与 ARM 和 MIPS 的 通用 寄存 器 相 比 ，IA32 体系 结构 的 专用 寄存 器 有 何 优点 与 缺点 ? 

c. 由 ISA 能 够 实现 的 寄存 器 数量 有 何 限制 ? 

d. 如 果 指 令 中 有 一 个 m 位 的 寄存 器 选择 字段 ， 寄 存 器 数量 不 能 多 于 2” 个 。 实 际 上 ， 有 不 少 方法 
可 以 突破 这 一 限制 。 请 给 出 若干 使 寄存 器 数量 超出 2" 个 ， 同 时 保持 m 位 寄存 器 选择 字段 不 变 
的 方法 。 

RISC 处 理 器 区 别 于 CISC 处 理 咒 的 特征 有 哪些 ?在 2015 年 与 1990 年 问 这 一 问题 ， 对 答案 是 否 

有 影响 ? 

6.14 有 人 曾 说 过 ,“RISC 之 于 硬件 就 像 UNIX 之 于 软件 ”。 请 问 你 如 何 理解 这 句 话 ? 它 是 否 正 确 ? 

6.15 AX RISC 哲学 就 是 “与 精简 指令 集 大 小 有 关 的 一 切 ” 的 说 法 是 错误 的 、 不 得 要 领 的 。 那 么 所 谓 

RISC 革命 带 给 包括 RISC 和 CISC 在 内 的 计算 机 体系 结构 设计 哪些 持久 的 引导 和 见解 ? 

6.16 什么 是 流水 线 处 理 器 中 的 气泡 ”为 何 它 对 流水 线 处 理 器 的 性 能 是 有 害 的 ? 

6.17 数据 冒险 有 RAW，WAR 以 及 WAW 等 。 什 么 是 RAR ( 读 后 读 ) 冒险 ? RAR 操作 是 否 会 给 流水 

线 计算 机 带 来 问题 ? 

在 5 阶段 流水 线 IF, OF, E, M, OS 上 执行 下 面 的 指令 序列 : 


1. ADD r0,r1,r2 
2. ADD r3,r0,r5 
3. STR r6, [r7] 
4. LDR r8, [r7] 


6.1 


Ww 


6.1 


oo 


指令 1 与 指令 2 之 间 会 产生 一 个 RAW 冒险 。 指 令 3 与 指令 4 呢 ? 它们 是 否 也 会 产生 一 个 冒 
险 吗 ? 
某 RISC 处 理 器 支持 三 地 址 指令 格式 以 及 典型 的 算术 运算 指令 ( 即 app，sUB，MUL，DIV 等 )。 请 
写 出 能 够 在 最 短 时 间 内 计算 以 下 表达 式 的 指令 序列 : 
(A+ B)A+B+C)E+H 
G+A+B+D+F(A+B-C) 
假设 所 有 变量 都 在 寄存 器 中 ,并且 RISC 处 理 器 没有 提供 消除 数据 相关 性 的 硬件 机 制 。 每 个 
数据 相关 实例 都 会 造成 一 个 流水 线 气 泡 并 浪费 一 个 时 钟 周期 。 
6.20 请 解释 为 什么 分 支 操 作 会 降低 流水 线 结构 的 效率 。 请 描述 分 支 预 测 是 如 何 提 高 RISC 处 理 器 的 效 


6.1 


wo 
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率 并 使 分 支 的 影响 最 小 的 ? 
6.21 图 P6.21 给 出 了 某 流水 处 理 器 的 部 分 概略 图 。 在 信息 通路 上 设置 触发 器 (寄存 器 ) 的 目的 是 什么 ? 


立即 数 


源 操 
作 数 1 
源 操 
作 数 2 


目的 
操作 数 


操作 码 
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图 P6.21 某 流水 处 理 器 的 结构 


6.22 假设 某 RISC 处 理 器 通过 分 支 预测 提高 性 能 。 右 表 列 出 了 预测 
分 支 和 实际 分 支 所 需 的 时 钟 周期 数 。 这 些 值 包括 了 分 支 自 身 所 
需 的 周期 数 以 及 与 分 支 指令 有 关 的 开销 。 

如 果 p, 为 某 个 指令 是 分 支 的 概率 ，p, 为 分 支 转移 成 功 的 

HR, pe 为 分 支 预测 错误 的 概率 ， 请 推导 出 平均 CPI (Towe) 的 
表达 式 。 所 有 非 分 支 指令 都 需要 一 个 周期 来 执行 。 

6.23 IDT application note AN33 给 出 计算 某 RISC 系统 平均 CPI 的 表达 式 如 下 : 

Cave = Po(1+b) + pn(l+m) + (1 — Py — Pm) 
Ht, p= 指令 是 分 支 指令 的 概率 ; b = 分 支 开 销 ; Pa = 指令 是 访 存 指令 的 概率 ; m= 访 存 

开销 。 请 解释 这 个 表达 式 的 正确 性 。 你 对 该 表达 式 有 可 能 进一步 改善 有 何 看 法 ? 

6.24 RISC 处 理 器 很 好 地 诠释 了 计算 机 体系 结构 与 计算 机 实现 之 间 的 区 别 。 在 何 种 情况 下 这 人 句 话 是 正 
确 的 (或 不 正确 的 ) ? 

6.25 RISC 处 理 器 依赖 (在 某 种 程度 上 ) 片上 寄存 器 提高 性 能 。 如 果 取 消 程 序 员 使 用 一 个 固定 大 小 的 寄 
在 器 集合 的 限制 ，Cache 能 够 带 来 同样 的 性 能 提升 。 请 分 析 这 句 话 的 正确 性 。 

6.26 在 RISC 处 理 器 上 执行 下 面 的 代码 。 代 码 中 数据 无 相关 性 。 

ADD w5, rS £T 

ADD r2,7r3,r4 

ADD r6,r9,r10 

ADD z11,xr1, ris 

ADD r14,r13,r16 

ADD r17,r18,r19 

a. 假设 一 个 含有 取 指 、 读 操作 数 、 执 行 和 写 结果 的 4 阶段 流水 线 ， 在 第 10 个 周期 内 会 读 、 写 哪 

些 寄存 器 ? 

b. 执行 完整 个 序列 需要 多 长 时 间 ? 

某 RISC 处 理 器 执行 以 下 代码 。 代 码 中 有 数据 相关 但 处 理 器 不 支持 内 部 定向 。 源 操作 数 只 有 被 写 

回 寄 存 器 后 才 可 被 使 用 。 


ADD r0,r1,r2 
ADD r3,r0,r4 





a 
iD 
3 


6.28 


6.29 
6.30 


6.3 


一 
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ADD r5,1r3,r6 
ADD r7,r0,r8 
ADD r9,r0,r3 
ADD r0,r1,r3 


a. 假设 该 RISC 处 理 器 的 流水 线 为 四 段 ， 取 指令 、 读 操作 数 、 执 行 和 写 结果 ,请 问 在 第 10 个 时 钟 
周期 哪些 寄存 器 将 被 读 出 ， 哪 个 寄存 器 将 被 写 人 。 

b. 执行 完整 个 代码 序列 需要 多 少 个 时 钟 周期 ? 

某 RISC 处 理 器 中 有 条 8 阶段 流水 线 : F D O E1 E2 MR MW WB ( 取 指 ， 译 码 ， 寄 存 器 读 操 作 数 ， 

执行 1， 执行 2， 读 存储 器 ， 写 存储 器 ， 以 及 将 结果 写 回 寄存 器 )。 简 单 逻辑 和 算术 操作 都 在 El 
阶段 末尾 完成 。 乘 法 操作 在 E2 阶段 末尾 完成 。 假 设 没有 使 用 内 部 定向 ,执行 下 面 的 代码 需要 多 
少 个 周期 ? 

MUL r0,r1,r2 

ADD r3,r1,r4 

ADD r5,r1,r6 

ADD r6,r5,r7 

LDR ri, [r2] 

假设 实现 了 内 部 定向 ， 请 重复 前 一 个 问题 。 

请 考虑 与 问题 6.28 相同 的 结构 ， 但 使 用 下 面 的 代码 段 。 假 设 内 部 定向 可 用 且 操 作 数 一 生 成 就 可 

用 。 请 写 出 以 下 代码 的 执行 过 程 。 

LDR r0, [r2] 

ADD r3,r0,r1 


MUL xr3,r3,r4 
ADD r6,r5,r7 


STR r3, [r2] 

ADD r6,r5,r7 

请 考虑 下 面 的 代码 : 

LDR rl, [r6] ; 将 存储 器 中 的 数据 载 入 上 1。Y6 为 地 址 指针 。 
ADD zl,rzl,#1 ;3r1 81 

LDR r2,[r6,#4] ; 将 存储 器 中 的 数据 载 入 r2。 

ADD zr2,r2,#1 ; r2 自 增 1 

ADD r3,ri,r2  ; rl 与 r2 相 加 ， 结 果 保 存在 r3 中 

ADD r8,r8,#4 ; ra ġa 


STR r2, [rz6,#8] ; 将 r2 存 入 存储 器 

SUB 4x2,r2,#64 ; r2 减 64 

a. 假设 不 使 用 内 部 定向 ， 执 行 这 段 代码 需要 多 少 个 周期 ? 

b. 假设 使 用 内 部 定向 ,执行 这 段 代码 需要 多 少 个 周期 ? 

c. 假设 进行 了 指令 重 排 序 (没有 内 部 定向 )， 执 行 这 段 代码 需要 多 少 个 周期 ? 

d. 假设 进行 了 指令 重 排序 且 有 内 部 定向 ， 执 行 这 段 代 码 需 要 多 少 个 周期 ? 

下 表 给 出 了 一 个 在 某 4 阶段 流水 线 上 执行 的 指令 序列 。 请 标 出 所 有 冒险 。 例 如 ， 若 指令 m 使 用 指 
令 m-1 生成 的 2 寄存 器 的 值 ， 则 在 RAW 列 的 第 m 行 写 下 m-l, 12. 


F3 WAR waw 


Add rl1,r2,r3 
Add r4,r1,r3 
Add r5,r1,r2 
Add r1,r2,r3 
Add r5,r2,r3 
Add r1,r6,r6é 
Add r8,r1,r5 
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6.33 
6.34 


6.35 


6.40 


6.41 
6.42 


为 什么 条 件 分 支 对 流水 线 处 理 器 的 影响 比 无 条 件 分 支 更 大 ? 
试 描述 不 同类 型 的 能 够 改变 处 理 器 执行 指令 的 正常 顺序 的 改变 控制 流 的 操作 。 这 些 操 作 在 典型 程 
序 中 出 现 的 频率 如 何 ? 


请 考虑 下 面 的 代码 : 
MOV r3,#Table ;指向 数据 
MOV r2,#10 ; 循环 计数 
Next LDR rl, [r3] ? HR: 获得 一 个 元 素 


SUBS r2,r2,#1 ; 循环 计数 器 减 1 并 设置 零 标志 
MUL 4x1,R1,#7 


STR rl, [r0] ; 保存 结果 
ADD r3,r3,#4 ;指向 下 一 个 元 素 
BNE Next ; 循环 ， 直 到 所 有 元 素 处 理 完 ( 按 零 标志 分 支 ) 


假设 这 段 类 ARM 的 代码 在 一 个 带 有 内 部 定向 的 4 阶段 流水 线 上 执行 。 载 人 指令 的 开销 为 一 

个 周期 ， 乘 法 指令 会 给 执行 阶段 带 来 两 个 暂停 周期 。 假 设 转移 成 功 的 分 支 没 有 任何 开销 。 
a. 这 段 代 码 会 执行 多 少 条 指令 ? 
b. 面 出 第 一 个 迭代 的 流水 线 时 序 图 ， 标 出 暂停 。 假 设 有 内 部 定向 。 
c. 执行 这 段 代码 需要 多 少 个 周期 ? 3 
分 支 指令 可 能 转移 成 功 也 可 能 转移 不 成 功 。 什 么 是 转移 成 功 与 转移 不 成 功 的 相对 频率 ， 为 何如 此 
定义 ? 
a. 什么 是 无 分 支 计 算 ? 
b. 什么 是 延迟 分 支 ? 它 对 减少 流水 线 气 泡 的 影响 有 何 作 用 ? 为 什么 延迟 分 支 机 制 不 像 以 前 那样 

流行 ? 
分 支 预测 是 怎样 减少 分 支 开销 的 ? 当 计算 分 支 开 销 时 ， 我 们 推出 了 两 个 表达 式 。 一 个 是 1 - 
0 p。， 男 一 个 是 (1 一 po)+p。* [+ pe+b(1 - Po)]。 请 证 明 二 者 结果 相同 。 
某 流水 线 计算 机 带 有 一 条 4 阶段 流水 线 : 取 指 / 译 码 ， 读 操作 数 ， 执 行 ， 写 回 。 除 load 和 分 支 之 
外 的 所 有 操作 都 不 会 引入 暂停 。 一 条 load 指令 会 带 来 一 个 周期 的 暂停 。 转 移 不 成 功 的 分 支 不 会 带 
来 暂停 ， 而 转移 成 功 的 分 支 会 带 来 两 个 周期 的 暂停 。 请 考虑 下 面 的 循环 。 


for (k=2047; i > 0; i--) {x[il=x[i]-4;} 


a. 执行 这 段 代 码 共 需 多 少 个 周期 ? 

b. 用 类 ARM 汇编 语言 来 表示 这 段 代 码 (假设 不 能 使 用 自动 索引 寻 址 方式 ， 并 且 唯 一 可 用 的 寻 址 
方式 为 形 如 [r0] 的 寄存 器 间接 寻 址 )。 

c. 请 给 出 循环 一 次 所 执行 的 代码 ， 并 说 明 它 需 要 多 少 个 周期 。 

d. 怎样 修改 该 代码 以 减少 执行 所 需 的 周期 数 ? 

假设 设计 了 一 个 具有 以 下 特点 的 结构 : 

e 非 分 支 指令 的 开销 1 个 周期 

© 指令 中 分 支 的 比例 20% 

e 转移 成 功 的 分 支 的 比例 85% 

e 延迟 模 被 填充 的 比例 50% 

。 未 填充 延迟 构 的 开销 1 个 周期 

对 于 该 体系 结构 ， 给 出 下 面 的 值 。 

a. 计算 平均 CPI。 

b. 如 果 延 迟 槽 被 填充 的 比例 增加 到 95%， 计算 CPI 的 改进 (用 百分比 表示 )。 

静态 分 支 预测 和 动态 分 支 预 测 有 哪些 不 同 ? 

某 流水 线 处 理 器 拥有 以 下 特征 : 


6.43 


6.47 


6.48 


6.49 


6.50 
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e Load 指令 的 比例 18% 

e HAIR (RAHA) 1 个 周期 

e 分 支 的 比例 22% 

e 分 支 转移 成 功 的 概率 80% 

o 转移 成 功 时 的 分 支 开销 3 个 周期 

e RAW 相关 除 分 支 外 所 有 指令 的 20% 
e RAW 开销 1 个 周期 

请 估算 该 处 理 器 的 平均 CPI。 


某 处 理 器 带 有 一 个 分 支 目标 缓冲 。 如 果 一 个 分 支 在 该 缓冲 中 并 被 正确 预测 ， 则 没有 任何 分 支 开 
销 。 预 测 正确 率 为 85%。 如 果 分 支 不 在 该 缓冲 内 且 转 移 不 成 功 ， 则 开销 为 2 个 周期 。70% 的 分 支 
都 会 转移 成 功 。 如 果 分 支 不 在 该 缓冲 内 并 且 转 移 成 功 ， 则 开销 为 3 个 周期 。 分 支 在 缓冲 中 的 概率 
为 90%。 请 问 平均 分 支 开 销 是 多 少 ? 

编译 器 怎样 通过 分 支 预测 机 制 提高 某 些 处 理 器 的 效率 ? 

请 考虑 下 面 两 个 分 支 结果 序列 ( T= 转移 成 功 ，N= 转移 不 成 功 ) 。 对 于 每 个 序列 ， 哪 种 分 支 预测 
机 制 最 简单 且 能 够 有 效 减 少 分 支 开 销 ? 

a. T,T,T,T,T,N,N,N,N,N,N,N,N,N,T,T,T,T,T,T,T,T,T,T,T,N,N,N,N,N,N,N,N 

b. T,T.T,T,T,N,N,T,T,T,T,T,T,N,T,T,T,1,T,N,T,T,T,T,T,T,,N,T,T,T,T,T 

某 处 理 器 使 用 一 个 2 位 饱和 计数 器 作为 动态 分 支 预测 器 ， 它 带 有 强 转移 成 功 、 弱 转移 成 功 、 弱 转 
移 不 成 功 和 强 转 移 不 成 功 等 4 个 状态 。 符 号 T 代 表 分 支 转移 成 功 ，N 代表 分 支 转 移 不 成 功 。 假 设 
它 记 录 了 下 面 的 分 支 预测 序列 ; 

TTTNTX 

请 问 X 的 值 是 多 少 ? 

将 以 下 分 支 结 果 序 列 TTTNTTNNNTNNNTTTTTNTTTNNTTTTNT 应 用 于 一 个 饱和 计数 器 分 支 预测 器 中 。 
如 果 分 支 预测 不 正确 时 开销 为 两 个 周期 ， 那 么 以 上 30 个 分 支 结果 序列 会 给 系统 带 来 多 少 个 周期 
额外 的 开销 ? 假设 预测 器 最 初 处 于 强 预测 转移 成 功 状 态 。 

图 P6.48 中 的 状态 图 表示 许多 可 能 的 可 用 于 预测 的 2 位 状态 机 中 的 一 个 。 请 用 简单 明了 的 语言 解 
释 它 是 怎样 工作 的 。 
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图 P6.48 


请 考虑 一 个 用 作 分 支 预测 器 的 4 位 饱和 计数 器 ， 其 状态 从 1111 ~ 0000. 请 说 明 在 怎样 的 情况 下 
该 计数 器 是 有 效 的 。 
什么 是 分 支 目标 缓冲 ， 它 对 减少 分 支 开销 有 何 作用 ? 
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深入 理解 计算 机 系统 ( 原 书 第 3 版 ) 


作者 : [ 美 ] 兰 德尔 E. 布 莱 恩 特 等 译 者 : BBA 等 书号 : 978-7-111-54493-7 it: 139.007 


理解 计算 机 系统 首选 书目 ，10 余 万 程序 员 的 共同 选择 
上 内 基 - 梅 隆 大 学 、 北 京 大 学 、 清 华 大 学 、 上 海 交 通 大 学 等 国内 外 众多 知名 高 校 选 用 指定 教材 
从 程序 员 视 角 全 面 训 桥 的 实现 细 吞 ， 使 读者 深刻 再 解 程序 的 行为 ， 将 所 有 计算 机 系统 的 相关 知识 融会 度 通 
新 版 本 全 面 基于 X86-64 位 处 理 器 


基于 该 教材 的 北大 “计算 机 系统 导论 ”课程 实施 已 有 五 年 ， 得 到 了 学 生 的 广泛 赞誉 ， 学 生 们 通过 这 门 课程 的 学 习 
建立 了 完整 的 计算 机 系统 的 知识 体系 和 整体 知识 框架 ， 养 成 了 良好 的 编程 习惯 并 获得 了 编写 高 性 能 、 可 移植 和 健壮 的 
程序 的 能 力 ， 葛 定 了 后 续 学 习 操作 系统 、 编 译 、 计 算 机 体系 结构 等 专业 课程 的 基础 。 北 大 的 教学 实践 表明 ， 这 是 一 本 
值得 推荐 采用 的 好 教材 。 本 书 第 3 版 采用 最 新 x86-64 架 构 来 贯穿 各 部 分 知识 。 我 相信 ， 该 书 的 出 版 将 有 助 于 国内 计算 机 
系统 教学 的 进一步 改进 ， 为 培养 从 事 系统 级 创新 的 计算 机 人 才 黄 定 很 好 的 基础 。 

一 一 梅 宏 中 国 科学 院 院士 /发 展 中 国家 科学 院 院士 








以 低 年 级 开设 “深入 理解 计算 机 系统 ”课程 为 基础 ， 我 先后 在 复旦 大 学 和 上 海 交通 大 学 软件 学 院 主导 了 激进 的 教 

学 改革 …… 现 在 我 课题 组 的 青年 教师 全 部 是 首 批 经 历 此 教学 改革 的 学 生 。 本 科 的 扎实 基础 为 他 们 从 事 系 统 软件 的 研究 
打下 了 良好 的 基础 …… 师 资 力 量 的 补充 又 为 推进 更 加 激进 的 教学 改革 创造 了 条 件 。 

— RRF ”上海 交通 大 学 软件 学 院 院 长 
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计算 机 组 成 与 设计 : 硬件 /软件 接口 ( 原 书 第 5 版 ) 


作者 : [ 美 ] 戴 维 A. 帕 特 森 等 ISBN: 978-7-111-50482-5 定价 : 99.00 元 


本 书 是 计算 机 组 成 与 设计 的 经 典 畅 销 教材 ， 第 5 版 经 过 全 面 更 新 ， 关 注 后 PC 时 代 发 生 在 计算 机 体系 结构 领域 的 革 
命 性 变革 一 一 从 单 核 处 理 器 到 多 核 微 处 理 器 ， 从 串 行 到 并 行 。 本 书 特别 关注 移动 计算 和 云 计算 ， 通 过 平板 电脑 、 云 体 
系 结构 以 及 ARM (移动 计算 设备 ) 和 x86 ( 云 计算 ) 体系 结构 来 探索 和 揭示 这 场 技术 变革 。 


计算 机 体系 结构 : 量化 研究 方法 ( 英文 版 : 第 5 版 ) 


作者 :| 美 ] John L. Hennessy 等 ISBN: 978-7-111-36458-0 定价 : 138.00 元 


本 书 系统 地 介绍 了 计算 机 系统 的 设计 基础 、 指 令 集 系统 结构 ， 流 水 线 和 指令 集 并 行 技术 。 层 次 化 存储 系统 与 存储 
设备 。 互 连 网 络 以 及 多 处 理 器 系统 等 重要 内 容 。 在 这 个 最 新 版 中 ， 作 者 更 新 了 单 核 处 理 器 到 多 核 处 理 器 的 历史 发 展 过 
程 的 相关 内 容 ， 同 时 依然 使 用 他 们 广 受 好 评 的 “量化 研究 方法 ”进行 计算 设计 ， 并 展示 了 多 种 可 以 实现 并 行 ， 陛 的 技 
术 ， 而 这 些 技术 可 以 看 成 是 展现 多 处 理 器 体系 结构 威力 的 关键 ! 在 介绍 多 处 理 器 时 ， 作 者 不 但 讲解 了 处 理 器 的 性 能 ， 还 
介绍 了 有 关 的 设计 要 素 ， 包括 能 力 、 可 靠 性 、 可 用 性 和 可 信 性 。 


上 
从 人 理解 云 计算 





云 计 算 : 概念 、 技 术 与 架构 
作者 : Thomas Erl 等 译 者 : AX S ISBN: 978-7-111-46134-0 定价 : 69.00 元 


“我 读 过 Thomas Erl 写 的 每 一 本 书 ， 云 计算 这 本 书 是 他 的 又 一 部 杰作 ， 再 次 证 明了 Thomas Er 选择 最 复杂 的 主 
题 却 以 一 种 符合 逻辑 而 且 易 懂 的 方式 提供 关键 核心 概念 和 技术 信息 的 军 见 能 力 。” 


—— Melanie A. Allison, Integrated Consulting Services 


本 书 详细 分 析 了 业已 证 明 的 、 成 熟 的 云 计 算 技术 和 实践 ， 并 将 其 组 织 成 一 系列 定义 准确 的 概念 、 模 型 、 技 术 
机 制 和 技术 架构 。 

全 书 理论 与 实践 并 重 ， 重 点 放 在 主流 云 计算 平台 和 解决 方案 的 结构 和 基础 上 。 除 了 以 技术 为 中 心 的 内 容 以 
外 ， 还 包括 以 商业 为 中 心 的 模型 和 标准 ， 以 便 读者 对 基于 云 的 IT 资 源 进 行经 济 评 佑 ， 把 它们 与 传统 企业 内 部 的 IT 资 
源 进行 比较 。 


云 计 算 与 分 布 式 系统 : 从 并 行 处 理 到 物 联 网 


作者 : Kai Hwang 等 3#. RKP 等 ISBN: 978-7-111-41065-2 定价 ， 85.00 元 


“本 书 是 一 本 全 面 而 新 颖 的 教材 ， 内 容 敌 盖 高 性 能 计算 、 分 布 式 与 云 计算 、 eens 作者 将 应 用 与 技 
术 趋 势 相 结合 ， 揭 示 了 计算 的 未 来 发 展 。 无 论 是 对 在 校 学 生还 是 经 验 丰富 的 实践 者 ， 本 书 都 是 一 本 优秀 的 读物 。 
F i Hacker, 普度 大 学 





本 书 是 一 本 完整 讲述 云 计 算 与 分 布 式 系统 基本 理论 及 其 应 用 的 教材 。 书 中 从 现代 分 布 式 模型 概述 开始 ， 介 绍 
了 并 行 、 分 布 式 与 云 计算 系统 的 设计 原理 、 系 统 体系 结构 和 创新 应 用 ， 并 通过 开源 应 用 和 商业 应 用 例子 ,阐述 了 
如 何 为 科研 、 电 子 商 务 、 社 会 网 络 和 超级 计算 等 创建 高 性 能 、 可 扩展 的 、 可 靠 的 系统 。 


深入 理解 云 计算 : 基本 原理 和 应 用 程序 编程 技术 
作者 : 拉 库 马 : 布 亚 等 译 者 : 刘 丽 等 ISBN: 978-7-111-49658-8 定价 ，69.00 元 


“Buyya 等 人 带 我 们 踏 上 云 计 算 的 征途 ， 一 路 从 理论 到 实践 、 从 历史 到 未 来 、 从 计算 密集 型 应 用 到 教 据 密 集 型 应 
用 ,激发 我 们 产生 学 术 研 究 兴 趣 ， 并 指导 我 们 掌握 工业 实践 方法 。 从 虚拟 化 和 线程 理论 基础 、， 到 云 计 算 在 基因 表达 和 
客户 关系 管理 中 的 应 用 ， 都 进行 了 深入 的 探索 

一 一 Dejan Milojicic，HP 实 验 室 ，2014 年 [EEE 计 算 机 学 会 主席 


本 书 介绍 云 计算 基 本 原理 和 云 应 用 开发 方法 。 
本 书 是 一 本 关注 云 计算 应 用 程序 开发 的 本 科 生 教材 。 主 要 讲述 分 布 式 和 并 行 计算 的 基本 原理 ， 基 础 的 云 架 
构 ， 并 且 特 别 关 注 虚拟 化 、 线 程 编程 、 任 务 编程 和 map-reduce 编 程 。 





计算 机 组 成 原理 


Computer Organization and Architecture Themes and Variations 


本 书 由 资深 的 计算 机 体系 结构 教育 家 Alan Clements 博 士 编 写 ， 原 书 名 为 《计算 机 体系 结构 : 原理 与 演变 》 
( Computer Organization & Architecture: Themes and Variations) ， 书 中 不 仅 覆 盖 单 机 系统 的 组 成 原理 和 系统 
结构 的 各 个 方面 ， 还 包括 计算 机 的 性 能 评价 方法 以 及 多 发 射 、 粗 粒度 并 行 等 内 容 。 作 者 希望 本 书 能 够 适合 电子 
工程 ( EE ) 、 电 子 与 计算 机 工程 ( ECE ) 、 计 算 机 科学 (CS) 等 不 同 专业 的 教学 需要 。 书 中 围绕 基本 概念 、 指 
令 集 体系 结构 、 处 理 器 组 成 和 能 效 、 存 储 与 外 设 以 及 处 理 器 级 并 行 等 五 个 核心 问题 将 这 些 内 容 有 条 不 亲 地 组 织 
在 一 起 ， 以 便 满足 不 同 专业 的 教学 需要 。 

中 文 版 引进 的 时 候 综合 考虑 国内 高 校 “ 计 算 机 组 成 与 结构 ”或 类 似 课程 的 教学 目标 以 及 我 们 对 本 书 的 定 
位 ， 对 原 书 进行 了 适当 裁剪 和 重新 组 合 ， 分 为 两 册 : 《计算 机 组 成 原理 》 和 《计算 机 存储 与 外 设 》。 

本 书 即 为 《计算 机 组 成 原理 》， 涵盖 原 书 前 三 部 分 ， 共 6 章 ， 主 要 介绍 计算 机 系统 的 组 成 和 体系 结构 的 基本 
概念 、 指 令 系统 以 及 处 理 器 实现 等 涉及 计算 机 组 成 原理 课程 的 内 容 。 
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艾 伦 . 克 莱 门 茨 ( Alan Clements) 国际 著名 的 计算 机 体系 结构 教育 的 推动 者 和 践 行 
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德 大 学 ( University of Teesside ) 计算 机 科学 系 。 在 20 世 纪 70~80 年 代 ， 他 编写 了 两 本 计算 机 
体系 结构 领域 的 重要 教材 : 《计算 机 硬件 原理 》 (The Principles of Computer Hardware ) 和 
《 微 处 理 器 系统 设计 》 ( Microprocessor Systems Design ) 。 

2001 年 ， 他 担任 了 计算 机 学 会 国际 学 生 竞 赛 ( CSIDC ) 主席 ， 并 于 同年 获得 英国 国家 
教学 奖 ( National Teaching Fellowship ) ， 这 是 英国 高 等 教育 的 最 高 奖项 。 由 于 在 计算 机 体 
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